京东商城交易平台的高可用架构之路

发布时间：2021-02-24 23:15:31 所属栏目：安全来源：网络整理

导读：《京东商城交易平台的高可用架构之路》要点：本文介绍了京东商城交易平台的高可用架构之路，希望对您有用。如果有疑问，可以联系我们。作者：王晓钟编辑：木环、郭蕾据腾讯科技报道,6 月 18 日零点,京东全民年中购物节拉开了高潮的序幕.第一个小时的销售

3)基础设施的监控,主要是网络质量和机器健康度的监控,像常规的带宽、丢包率、重传、连通性,CPU、内存、磁盘等等.在网络方面,除了内网,我们也非常关心公网网络质量,一旦发现运营商或者区域故障,就会做立即出预案响应,7*24 小时确保用户购物体验.

在监控指标完善的同时,我们更多在解决监控自身的延时性.京东自身访问量大,所以在提高监控的延时性同时又不能影响业务自身性能,本身就是就一个挑战.目前我们在业务层面、系统层面都做到了秒级粒度,基础设施方面的重要指标也有了秒级数据.在预警方面,除了传统的邮件、短信,我们集成了京东内部 IM 工具,同时还有手机语音呼叫.

在这么多指标,这么精细的数据面前,传统的监控仪表盘也会让我们再度迷失,因此我们开发了天眼系统进一步将各个监控子系统进行集成,结合前述的调用链,在一个大屏上多个核心主流程的各环节、各调用层次的当前健康状况一览无遗,一旦有故障我们可以在短时间内快速响应并恢复.

InfoQ：对于恶意的流量攻击,京东做了哪些准备工作?准备如何预防?

王晓钟：恶意流量攻击,是每个互联网企业都必须面对的难题.目前我们把流量攻击分为两大类：网络协议层和应用逻辑层.

网络协议层的,主要是 SYNFlood、UDPFlood、DNSFlood、HTTPFlood 这些 4 层或 7 层协议的各种流量攻击,主要以带宽或服务资源消耗为主.目前我们通过京东云平台自研的流量分析和清洗系统能够防御主流的恶意流量攻击.除此之外,信息安全部门也会联合外部力量进行上百 G 的流量攻防演练,确保合作和联动等实战能力.

应用逻辑层的恶意流量的范围和影响则比较广泛.狭义上,恶意流量利用应用系统的软件漏洞,做拒绝服务攻击；广义上,能够利用应用的实现逻辑或规则漏洞,非法实现各种商业利益的,无论流量大小,都属于恶意流量攻击.这一大类型攻击由京东的多个部门配合进行整体防御.

1)信息安全部门会通过开展安全自查和外部合作报告漏洞的方式,由各业务研发部门实施安全漏洞消除,比如 SQL 注入、代码执行、水平越权、信息泄露等. ? ?2)风控部门会通过数据分析,建立各种等级的风险控制模型,形成动态的不同风险等级的账户池,供业务系统使用. ? ?3)业务研发部门则根据业务特性、用户风险等级、系统压力等因素,提供不同策略的限流实现.

InfoQ：以商品的实时价格为例,聊聊你们的读逻辑和写逻辑流程?

王晓钟：京东实时价格面临几大挑战：一是数据量大,几十亿的商品；二是调用量大,日峰值上百亿；三是实时性要求高；最后是业务复杂度高,并不是单一的京东价,不仅要综合计算各类促销规则,还要对 PC、手机、第三方合作渠道以及区域进行差异化运营.这里,我们运用读写分离、异步化策略,选择支撑大并发、高性能的开源组件进行设计,确保可水平扩展、高稳定性.

1)写逻辑流程：当采销在后端调整价格或建立促销时,同步写入 MySQL 数据库,然后通过异步任务更新促销主 Redis 数据,并同时更新价格主 Redis 的过期时间戳,通过 Redis 自身复制机制,将数据传播到从节点.2)读逻辑流程：当用户在前端浏览商品列表、详情等页面时,异步访问价格实时服务,此时内嵌 Nginx 的 Lua 程序直接读取本地 Redis(从)中的价格数据,无过期则直接返回用户；若过期或不存在,则回源访问价格实时计算服务,即刻返回最新价格给用户.3)回源写逻辑：价格实时计算服务读取促销主 Redis,在返回最新价格给用户的同时,异步写价格主 Redis 集群,价格主 Redis 同步数据至前置 Nginx 节点的从 Redis 节点.

InfoQ：今年 618 京东的交易平台都做了哪些技术上的改进或者创新,以及未来将会考虑哪些优化和升级方向?

王晓钟：除了上面提到的主要用来维护系统稳定的技术改造之外,今年交易平台也投入了更多的精力在做提升用户体验、提升 GMV 的改进和创新工作.比如利用大数据技术和机器学习模型,来提供千人千价、千人千促的体验.

我们也在尝试利用大数据和机器学习等在系统维稳上做一些工作,比如：

1)SQL 注入和恶意代码执行方面引入了机器学习模型,通过对已有的攻击行为进行学习,训练特征.引入半监督学习,让模型可以通过学习,自动发现新型的攻击.大大提高了攻击的发现效率和新攻击的识别能力.各项指标已经完全超越传统的规则识别.

2)使用有向图模型对恶意攻击进行溯源检测,更加准确快速的进行溯源分析,并且得到了非常好的效果.

下一步,我们会继续尝试在这个方向上做一些创新,比如：

1)在人机行为检测方面进行优化.使用聚类和 nlp 模型对恶意刷单行为进行识别,提高恶意刷单行为的验证级别,从而极大地降低后台接口压力.

2)评论价值评定模型,识别真实评论和刷出来的评论.让评论产生更大的价值.

3)我们将在故障智能预测上进行探索.目前很多监控和预警都是事后的,我们希望能做到事前.通过分析历史性、周期性故障数据,结合当前实时健康度,快速识别出“濒死”的机器、实例,真正做到监控预警智慧化.

原文来自微信公众号：聊聊架构

（编辑：衡阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

运用带外数据 OOB 从电	邮件巨头Zimbra透露严
如何运用无监督学习对	大多数关键的路由器漏