数据大集中模式下的应用监控盘点
根据规划,工行未来的综合监控系统框架如图1所示。其中,应用监控和综合监控的关系表述如下:应用监控负责集中采集各应用的性能数据,并将重要的性能数据通过性能数据接口实时上送给综合监控系统;综合监控系统负责汇总各专业上送的事件和性能数据,实现面向业务可用性的个性化监控指标展示视图。
在上述框架中,最有价值的部分是业务影响和关联分析以及端到端业务监控。数据中心应用系统数量大、复杂性高,大量的监控指标和告警信息都上送给综合监控平台后,如何保障运维管理人员或更高级的管理人员在短时间内方便快捷地了解业务系统整体的运行情况并作出评价与判断,将在一定程度上影响监控系统在企业中的价值。指标聚合是针对这一问题的有效方法。可以借助建模技术,将与业务服务相关联的对象组织在一起,通过影响分析将底层的可用性及健康情况逐级传递上去,形成类似金字塔型的KPI指标体系,从而使管理人员能够通过关注几个较少的指标完成对系统整体运行情况的把握。通过对韩国国民银行材料的研究得知,韩国国民银行就通过与咨询公司合作,分别建立“业务分类树”和“系统分类树”模型,实现了业务影响度的分析和规划。
[page] 3.端到端监控的实现思路
目前,工行应用监控系统已经初具规模,为了进一步实现“面向业务、面向服务”的监控管理要求,要求我们必须建立覆盖各应用系统的端到端业务级监控,可以遵循以下两种思路来实施。
(1)主动监控。主动监控包括主动执行仿真交易来检查应用系统的性能和可用性。可以考虑在所有一级分行抽取部分重要网点部署探测脚本,定时发起模拟用户行为的仿真交易,记录整个交易流程(例如ATM→综合前置→通用网关→主机)的响应时间,与相关交易的平均响应时间进行比较,如果超过平均交易响应时间,则进行报警,从而为关键业务交易的可用性问题提供优先的早期预警。同时,这还可以帮助数据中心运维人员判断是分行的问题还是数据中心的问题,是所有分行问题还是个别分行问题。
通过引入支持HTTP协议的客户端编程工具包HttpClient,我们利用HttpClientAPIs实现了基于POST表单模式模拟用户自动登录BS应用的监控工具,该工具每隔5分钟定时运行,可以从终端用户角度主动探测部署在数据中心的BS应用的可用性。
(2)被动监控。被动监控主要用于测量实际最终用户执行交易时的响应时间。实现被动监控的方法可以通过基于国际标准的应用程序响应评测(ApplicationResponseMeasurement,ARM)接口,在应用程序源代码中包含对ARMAPI的调用,通过ARM可以实现对贯穿整个应用架构的交易路径实施跟踪,包括端对端交易响应时间的度量,ARM的工作原理如图2所示。
ARM工作原理
图2 ARM工作原理
ARM是一个应用程序接口(API),它可以监控不同应用和系统下的业务交易的可用性和性能。要监测应用程序的响应时间,可以在应用程序开发阶段根据ARM标准将ARMAPI调用嵌入应用程序代码,主要是在需要监控性能的应用交易代码前后添加ARM调用,然后可以通过专用软件工具进行监控。现在业界领先的软件提供商如IBM、HP、SAS等已在自己的软件中内置了ARM。工行应该尽早组织开发人员深入研究ARM标准,以推动工行在应用监控程序功能实现方面的标准化,这不但可以提高数据中心的运维管理水平,同时可以提高测试中心对应用程序性能的检测能力,最终保障应用系统的稳定高效运行,从而能够为客户提供优质的产品和服务,持续提升银行在国际金融市场的竞争力。 (编辑:衡阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |