加入收藏 | 设为首页 | 会员中心 | 我要投稿 衡阳站长网 (https://www.0734zz.cn/)- 数据集成、设备管理、备份、数据加密、智能搜索!
当前位置: 首页 > 综合聚焦 > 移动互联 > 评测 > 正文

云+社区联合快手 深度解读五大热门大数据技术

发布时间:2019-09-02 18:44:07 所属栏目:评测 来源:鸢玮
导读:【51CTO.com原创稿件】数据已经成为企业宝贵的资产,如何利用数据的分析挖掘,从而辅助企业进行商业决策,成为企业所关注的。 8月24日,由云+社区(腾讯云官方开发者社区)联合快手举办的《大数据技术实践与应用》沙龙活动成功举行,沙龙聚焦于大数据的技

如今,各大企业都意识到数据的重要性,如何挖掘数据价值,为企业做出决策,变得尤为重要。然而,在企业级大数据架构中,主要在三大领域存在挑战,企业级数仓与数据集市构建、流式数据分析和海量数据检索与分析,而各大社区也都通过开源组件形成了不同的解决方案。但是构建大数据平台的技术复杂性高,构建周期长,运维基础设施匮乏,技术抗风险能力弱,因此,大数据开源技术能一定程度满足研发工程师的显性技术需求,但无法满足企业潜在的深层次隐形需求。

为了帮助企业解决以上挑战问题,腾讯云从技术组件到产品服务,通过完善大数据基础设施帮助企业客户高效应对从初创发展到成熟过程中的大数据技术性挑战。腾讯云将企业划分为初创型和成熟型,对于初创型企业,腾讯云提供封装好的开箱即用的产品,包括计算服务、BI分析组件,云数仓、云搜等能力。而对于成熟型企业,腾讯云帮助其解决偏运维层面的问题,结合用户自己的特色,更加贴近用户的业务应用场景,帮助用户建立自己的大数据解决方案,腾讯云在此方面则提供弹性MapReduce和ES。

乔超介绍了腾讯云云端大数据基础设施的优势:1、海量计算资源的优势,腾讯云拥有全球25个地理区域、全球51个可用区、分钟级计算存储资源实时调度,解决用户就近计算的场景。2、开放性和连续。通过与开源基金及公司协作,开源协同的持续性研发资源投入。3、大数据业务场景化。腾讯云提供腾讯系金融、社交网站、游戏、视频、新闻资讯、电商等领域大数据场景应用,同时也包括用户画像、精准推荐、用户行为分析、金融风控等场景应用。4、持续性服务。腾讯云提供线上技术交流、培训,线下技术沙龙交流平台以及持续性产品/服务支撑。

弹性MapReduce是腾讯云构架于云端海量存储、计算基础设施之上的云端Hadoop 框架,用户可在十分钟获得一个安全、低成本、高可靠、高弹性扩展、架构可持续演进的专属大数据集群。该产品帮助企业在提升研发效率、运维效率、降低硬件成本的同时,轻松应对TB、PB级的海量数据的价值挖掘挑战。

云+社区联合快手 深度解读五大热门大数据技术

弹性MapReduce可以灵活应对多业务场景,包括在线业务、数据仓库、实时流式计算,机器学习,有效支持企业大数据架构可持续演进。基于云端的Hadoop框架产品将有效提升企业对大数据基础设施的快速构建、高效运维及应用的综合性大数据能力。腾讯云弹性MapReduce产品包括四大优势:10分钟构建上百节点大数据集群,支持控制台/程序API灵活构建;十分钟节点级横向扩展(数节点扩展至数百节点),十分钟集群级横向扩展(单一集群扩展至数个异构集群);百余监控指标覆盖(服务器级、服务级),异常事件秒级触达,Ddos/VPC安全加固、 Kerberos节点级服务信任;云端多源数据支持(云数据库、ES、Ckafka、流计算、Snova云数仓),云端可视化BI工具无缝对接。

在沙龙现场,乔超现场演示了通过腾讯云快速构建云端大数据分析平台,只需要四步,首先勾选EMR组件,然后配置集群规格,创建集群,最后快速扩缩容。

最后,乔超介绍了腾讯云弹性MapReduce运营实践全方位规划,包括初期规划、集群构建、参数优化、线上运营四个阶段。在初期规划方面,企业需要进行资源预估,同时腾讯云也会提供建议,然后企业进行机型配置核定,包括机型、核数、内存、磁盘等方面。在集群构建阶段,通过大数据技术栈,提供从底层基础架构到上层应用全方位的技术能力。而集群部署模式分为混合部署和独立部署两种,初期阶段可以混合部署,随着业务规模及企业发展,逐步走向独立部署模式。经过EMR团队多年的经验积累,在参数优化这块他们也给出了一些建议,包括通过心跳设置和元数据管理对HDFS进行优化,通过ResourceManager堆大小、TimeLineServer和AMShare三个方面对yarn进行优化,通过FetchTask和计算引擎对Hive进行优化等。

腾讯基于Flink构建实时流计算平台的技术实践

Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。而Flink也是大数据处理领域最近冉冉升起的一颗新星。腾讯高级工程师杨华介绍了腾讯实时流计算技术的演进过程以及对Apache Flink所进行的优化与扩展。

Flink在腾讯的发展要追溯到2017年。2017年上半年,腾讯对Flink框架进行调研,包括性能对比测试,评估关键可用性等现网关键指标。到了2017年下半年,腾讯内部进行特性的定制开发与性能优化,相关业务的灰度测试、上线。2018年上半年,腾讯打造Oceanus实时流计算平台,覆盖公用云、专有云场景,内部业务迁移与试运行。2018年下半年,Oceanus公有云流计算产品正式上线公测,腾讯其他BG流计算业务与大数据套件整合。到了今年上半年,腾讯上线在线机器学习业务、秒级监控等服务,打造场景化的业务支撑能力,支持广告、推荐业务。虽然腾讯研发Flink只有2年半的时间,但是目前腾讯的Flink支持集群总核数达到34万,峰值算力达到每秒2.1亿,日均处理消息量20万亿,日均消息规模是PB级别。

腾讯对Flink进行了四方面的优化。由于Flink的Web UI不利于定位新网的问题,因此在Flink1.6版本时,腾讯对web UI进行重构。第二,腾讯对JobManager Failover进行优化。通过Standalone模式和宿主模式,腾讯云对Queryable state进行了优化。最后,腾讯对Increment Window进行改进,对Flink原生窗口进行增强。

Apache Hudi是今年上半年刚刚加入Apache孵化器进行孵化的项目,是Uber于2016年在内部环境中使用的框架,用于大规模数据集。通过Upsert和Incremental pull两种方式,Hudi可以在Hadoop重新分布式文件系统数据集上进行集中。 Hudi可以在延迟和成本的维度上,在单个的物理数据集上提供三个不同的逻辑视图:一是读优化视图,能够指向常规的Hive表进行查询;二是增量视图,能够捕获数据集的变更流供给下游的Job/ETL,允许增量拉取;三是准实时视图,在准实时数据上进行查询,同时联合Apache Parquet(列) & Avro(行)的数据。而Flink和Hudi进行整合,可以提升分析过程的效率。

腾讯实时计算团队对社区版的Flink进行了深度的优化,并在此之上构建了一个集开发、测试、部署和运维于一体的一站式可视化实时计算平台——Oceanus。腾讯云流计算Oceanus是位于云端的流式数据汇聚和计算服务,用户只需几分钟就可轻松构建流计算应用,而无须关注基础设施的运维,并能便捷对接丰富的云上数据源。它可以帮助企业构建多样化的流式数据处理能力,轻松应对海量数据实时处理和分析决策的挑战。

云+社区联合快手 深度解读五大热门大数据技术
Oceanus平台整体架构

Oceanus平台特点:1、实时计算;2、完全托管;3、超高弹性,支持弹性扩缩容;4、简易SQL模式;5、支持UDX/自定义程序,方便大家去简化开发逻辑的成本;6、丰富的云端生态,提供一些生态的产品,包括数据采集等服务。

Oceanus拥有丰富的流计算应用场景,有效支持企业的实时计算需要和提升决策分析水平。典型的应用场景包括:1、点击流分析,可以分析用户在Oceanus进行操作的行为,通过后台相应分析为商业决策或者广告投放提供支撑;2、金融实时风控,欺诈的行为监测;3、物联网IoT监控;4、电商精准推荐。

Oceanus覆盖作业的生命周期,包括开发、测试、部署、运维,用户只需要关注它的应用逻辑的实践。目前,Oceanus应用建构方式包括三种模式:1、画布的形式来构建应用,腾讯将Flink做成相应的组件放在Oceanus的平台上,用户在使用的时候只需要在具体的算力进行相应的编排即可;2、标准SQL的方式,支持SQL语法可以快速高效的创建应用;3、支持Datastream API和dataset API,可高度定制特殊的业务逻辑。

最后,杨华介绍了Oceanus应用提交步骤,首先让用户配置相应的元数据,包括消费信息、数据格式,然后创建DAG,最后再经过编译提交。

通过半天的沙龙活动,到场的用户纷纷表示收获满满,不但对大数据相关技术有了深入的了解,还对腾讯云在大数据方面所做的支持和优化给予了肯定,期待未来更多的技术内容分享。
云+社区技术沙龙是腾讯云官方开发者社区举办的沙龙活动,希望通过分享技术让更多开发者学习和交流,成为腾讯云连接开发者的平台,共同打造技术影响力。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

【责任编辑:鸢玮 TEL:(010)68476606】
点赞 0

(编辑:衡阳站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读