加入收藏 | 设为首页 | 会员中心 | 我要投稿 衡阳站长网 (https://www.0734zz.cn/)- 数据集成、设备管理、备份、数据加密、智能搜索!
当前位置: 首页 > 服务器 > 搭建环境 > Linux > 正文

大数据经典学习路线(及供参考)

发布时间:2021-01-16 19:31:12 所属栏目:Linux 来源:网络整理
导读:1.基础和分布式集群技术 学完此阶段可掌握的核心能力: ? 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务; ? 学完此阶段可解决的现实问题: ? 搭建负载均衡、高可靠的服务器集群,可以增

2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,Hadoop不仅可以用来存储海量数据,还以用来计算海量数据。因为其高吞吐、高可靠等特点,很多互联网公司都已经使用Hadoop来构建数据仓库,高频使用并促进了Hadoop生态圈的各项技术的发展。一般来讲,根据业务需求,数据的处理可以分为离线处理和实时处理,在离线处理方面Hadoop提供了很好的解决方案,但是针对海量数据的实时处理却一直没有比较好的解决方案。就在人们翘首以待的时间节点,storm横空出世,与生俱来的分布式、高可靠、高吞吐的特性,横扫市面上的一些流式计算框架,渐渐的成为了流式计算的首选框架。如果庞麦郎在的话,他一定会说,这就是我要的滑板鞋!

?

?

上图是流式分析的一般架构图,抽象出四个步骤就是数据采集、数据缓冲、数据处理、数据输出。一般情况下,我们采用Flume+kafka+Storm+的结构来进行流式数据分析。实时部分的课程主要是针对Kafka、Storm进行学习

?

1.2、流式计算可以用来干什么

?

一淘-实时分析系统:实时分析用户的属性,并反馈给搜索引擎。最初,用户属性分析是通过每天在云梯上定时运行的MR job来完成的。为了满足实时性的要求,希望能够实时分析用户的行为日志,将最新的用户属性反馈给搜索引擎,能够为用户展现最贴近其当前需求的结果。

携程-网站性能监控:实时分析系统监控携程网的网站性能。利用提供的performance标准获得可用的指标,并记录日志。Storm集群实时分析日志和入库。使用DRPC聚合成报表,通过历史数据对比等判断规则,触发预警事件。

一个游戏新版本上线,有一个实时分析系统,收集游戏中的数据,运营或者开发者可以在上线后几秒钟得到持续不断更新的游戏监控报告和分析结果,然后马上针对游戏的参数和平衡性进行调整。这样就能够大大缩短游戏迭代周期,加强游戏的生命力。

实时计算在腾讯的运用:精准推荐(广点通广告推荐、新闻推荐、视频推荐、游戏道具推荐);实时分析(运营数据门户、效果统计、订单画像分析);实时监控(实时监控平台、游戏内接口调用)

为了更加精准投放广告,阿里妈妈后台计算引擎需要维护每个用户的兴趣点(理想状态是,你对什么感兴趣,就向你投放哪类广告)。用户兴趣主要基于用户的历史行为、用户的实时查询、用户的实时点击、用户的地理信息而得,其中实时查询、实时点击等用户行为都是实时数据。考虑到系统的实时性,阿里妈妈使用Storm维护用户兴趣数据,并在此基础上进行受众定向的广告投放。

?

1.3、Storm核心技术点

?

基础技术点

linux环境准备、zookeeper集群搭建、Storm集群搭建、Storm配置文件配置项讲解、集群搭建常见问题解决。

Storm练习案例

?

根据蚂蚁金服提供的最新数据,今年双十一的交易峰值为8.59万笔/秒,是去年3.85万笔/秒的2.23倍。这一数据也超过了6万笔/秒的预估。如何实时的计算订单金额,让公司领导层看到呢?

?

(图为双十一支付宝成交金额)

?

Storm基础及原理

?

Storm常用组件和编程API:Topology、 Spout、Bolt、Storm分组策略(stream groupings)、Storm项目maven环境搭建、使用Strom开发一个WordCount例子、Storm程序本地模式debug、Storm消息可靠性及容错原理、Storm任务提交流程、Strom消息容错机制。

(图为storm组件)

?

1.4、Kafka核心技术点

?

Storm结合消息队列Kafka:消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程API、Kafka负载均衡、Kafka消息存储原理等。

?

(图为Kafka消息队列原理)

2.流式计算案例实战

?

实战案例部分主要有三个企业实战案列,分别是基于点击流的日志分析系统、基于系统日志的监控告警系统、基于订单系统的交易风控系统,三个案列是企业中的典型项目。学完此阶段能够独立根据企业的业务性质开发相关的storm程序。

?

学完此阶段可掌握的核心能力:

?

1、掌握企业核心业务需求

2、掌握实时系统常见的开发流程及运营经验

?

学完此阶段可解决的现实问题:

?

可以独立开发storm程序来满足业务需求

?

学完此阶段可拥有的市场价值:

?

熟练学习和掌握后,可满足企业开发的初级需求,根据市场反馈数据看,薪资普遍在?15000-18000元/月。



2.1、案例:流量日志分析

?

流量日志分析之漏斗模型:大型电商网站,上亿规模的用户,千万级别的活跃用户,如何评估一个商品专题页面的效果好不好呢?比如:浏览次数、加入购物车次数、下单次数、支付次数、完成。

?

(图为日志分析漏斗模型-数据部必备)

(编辑:衡阳站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读