加入收藏 | 设为首页 | 会员中心 | 我要投稿 衡阳站长网 (https://www.0734zz.cn/)- 数据集成、设备管理、备份、数据加密、智能搜索!
当前位置: 首页 > 创业 > 经验 > 正文

中国IT史上两大严重事故对我们的教训及预防措施

发布时间:2021-05-22 09:17:55 所属栏目:经验 来源:互联网
导读:2015年5月28日上午11点开始,携程旅行网官方网站突然显示404错误页,App也无法使用,业务彻底中断。 据称是因为乌云网公布了携程的一个漏洞携程旅游网服务器配置

2015年5月28日上午11点开始,携程旅行网官方网站突然显示404错误页,App也无法使用,业务彻底中断。

据称是因为乌云网公布了携程的一个漏洞“携程旅游网服务器配置不当可导致官方邮件劫持”,携程修复后当天准备上线发布,但运维自动化系统有问题或者运维操作有问题,导致“发布不上去了,刚发就(根目录包括代码)被(物理)删”,虽然数据库还在,但应用都被删了,业务迟迟无法恢复。

当日下午,携程一度将流量切给了艺龙,但艺龙承受不了而雪崩宕机。

当晚19时许,离宕机过去8个小时后,携程旅行网手机APP首先恢复,但是提交订单仍然不稳定。

当晚22:45,携程服务全面恢复,至此,停服整整12个小时。

当时我提出在Business Continuity Plan(BCP,业务持续计划)之外尽快落实Disaster Recovery Plan(DRP,灾难恢复计划)。

DCP的目标是:

当IDC机房物理无法连接时,可快速异地重建生产系统。

它分为两个层级:

代码和配置的灾难可恢复性;

数据的灾难可恢复性。

时至今日其实通过以下做法间接达到了DCP的目标:

代码和配置的灾难可恢复性:

Docker镜像:Web容器的配置都在Docker容器镜像里;

私有分布式镜像仓库,能够做到在混合云多机房各处都有自动同步的镜像库;

异地双活机制等于说异地备份了Nginx/DNS等服务配置信息;

CloudEngine(我们的研发协作平台)里保存了各种工程在不同环境里的应用属性(也是配置信息);

数据的灾难可恢复性:

异地备份:在iDB(我们的数据库自动化运维平台)的帮助下有数据库自动备份以及备份的可恢复性自动检查,并且做了异地备份;

异地双活机制等于说异地同步了全量数据库。

2019年1月20日凌晨1点到10点,整整9个小时,羊毛党徒们狂欢,从拼多多领取(而不是抢购)100元无门槛优惠券,据信拼多多损失高达数千万元。

据传,这个无门槛优惠券实际上对应于已过期的运营活动,但由于操作失误,导致凌晨又重新上线。

p.s.:

劵的来历:〃在拼多多官方的公告中指出此券为拼多多此前与江苏卫视《非诚勿扰》开展合作时,因节目录制需要特殊生成的优惠券类型,仅供现场嘉宾使用。除此之外,此种类型优惠券,从未在任何时候、以任何方式出现在平台正常的线上促销活动当中,甚至从未有任何线上入口。〃

(编辑:衡阳站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读