加入收藏 | 设为首页 | 会员中心 | 我要投稿 衡阳站长网 (https://www.0734zz.cn/)- 数据集成、设备管理、备份、数据加密、智能搜索!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

对比Flink与Storm性能,分布式实时计算框架该这样选

发布时间:2019-06-28 01:12:17 所属栏目:优化 来源:梦瑶
导读:一、背景 Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称Storm)在美团点评实时计算业务中已有较为成熟的运用,有管理平台、常用 API 和相应的文档,大量实时作业基于 Storm 构建。 Apache Storm参

Metrics Collector 按 outTime 取五分钟的滚动时间窗口,计算五分钟的平均吞吐(输出数据的条数)、五分钟内的延迟(outTime - eventTime 或 outTime - inTime)的中位数及 99 线等指标,写入 MySQL 相应的数据表中。最后对 MySQL 表中的吞吐计算均值,延迟中位数及延迟 99 线选取中位数,绘制图像并分析。

2、默认参数

Storm 和 Flink 默认均为 At Least Once语义。

Storm 开启 ACK,ACKer 数量为 1。

Flink 的 Checkpoint 时间间隔为 30 秒,默认 StateBackend 为 Memory。

保证 Kafka 不是性能瓶颈,尽可能排除 Kafka 对测试结果的影响。

测试延迟时数据生产速率小于数据处理能力,假设数据被写入 Kafka 后立刻被读取,即 eventTime 等于数据进入系统的时间。

测试吞吐量时从 Kafka Topic 的最旧开始读取,假设该 Topic 中的测试数据量充足。

3、测试用例

1)Identity

Identity 用例主要模拟“输入-输出”简单处理场景,反映两个框架本身的性能。

输入数据为“msgId, eventTime”,其中 eventTime 视为数据生成时间。单条输入数据约 20 B。

进入作业处理流程时记录 inTime,作业处理完成后(准备输出时)记录 outTime。

作业从 Kafka Topic Data 中读取数据后,在字符串末尾追加时间戳,然后直接输出到 Kafka。

(编辑:衡阳站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读