《企业集中监控体系思路及架构.docx》由会员分享,可在线阅读,更多相关《企业集中监控体系思路及架构.docx(21页珍藏版)》请在优知文库上搜索。
1、所谓监控,即包括监+控”,即应该具备对运维数字世界的运彳亍情况进行感知、决策、应急处St的能力,是业务连续性保障能力的基他.因为要感知,所以监控需要具备实时的数据采集能力,而监控采集的性能、容量、运营等数据又为智能运维提供数据资产.由于生产系统运行涉及面极广,监控工具很多,企业很自然的会有合而为一的决策,像集中监控就是一个需见的项目。但是,需要关注的是,一方面市场上成熟的监控系统很多,不同层面的监控工具关注点又各不一样,通常很难选择一个包罗所有能力的监控系统;另一方面企业里的监控系统经过一段时间沉淀,原有监控系统最大的价值己经不是监控系统本身,而是上面的监控配置项,事实上很多技术架构及功能并不
2、优秀的监控系统很难替换的原因就在于此.所以,本文讲的集中监控不是讲一个监控系统,而是站在运维组织角度看监控体系.(注:一些细化内容可以参见监控体系建设(点击标题可阅读)1.从飞机监控春运维监控如果说运维行业工作特点是如履薄冰,那航空公司的运维是事关生死,借鉴航空公司的运维方案有助于持续提升业务连续性保障能力,以监控为例,一方面,如果机组人员遗漏或延迟响应监控报瞥,可能会产生灾难,要求监控系统的可靠性,报警的准确性;另一方面,影晌飞行安全的因素很多,不仅包括飞机自身的设备可篇性,燃油,气候,航站楼安排等每一个环节都需要监控到位,要求监控系统覆盖面;同时,由于事关生死.监控报警响应、处理、豆盘的管
3、理得到严格落实.本节内容源于早前看过一篇关于波音777-2001.R飞机监控的贴子,为了实现一架飞机的监控管理,波音777-2001.R飞机部署了超过3000个传感器,内容覆盖飞机内部设备、人员操作、外部环境燃油等多个维度的监控.鉴于监控报警的优先级不同,对监控的信息触达与处冒方式进行分级,以确保监控报警信息能够得到处理.飞机这种监控分级,报警处置要求,以及配套不同级别的提示对于运维监控体系有借鉴作用.以下摘录出一些有意思的内容.1)报警分级飞机监控系统对不同的监控报警划分了5个级别,每个级别有不同定义,并有多种不同的报警方式.通过报警分级,飞行员或飞机运营人员可以有主次的进行针对性处理与决策
4、。5个级别包括:备忘备忘表示飞机的一种正常状态,但该状态需要机组知晓,类似于;柞上的大灯远光开启这样的指示信号。该级别信息通常为白色显示,无声音或茴次出现时伴随单次提示音.咨询咨询表示飞机的一种异常状态,但该状态不会立即威胁飞行安全,条件允许时应予以关注。该级别信息通常为黄色显示,无声音或首次出现时伴随单次提示音.鳖戒警戒表示飞机出现故障或处于明显异常状态,该状态正在威胁飞行安全,应尽快予以关注.该级别信息通常为黄色显示,伴随连续谐音警告或嘟郊声.告警告警表示飞机出现严蚤故障或处于危险状态,该状态已经严生威胁飞行安全,必须立即采取措施,否则极可能发生致命事故.该级别信息通常为红色显示,目故障排
5、除前无法清除显示的内容,伴随不间断商分贝警告音或语音播报.急迫告警急迫告警表示飞机出现严重故障且持续恶化或处于即将发生致命事故的状态,必须立即采取措施,否则将不可避免的发生致命事故,该级另憎息通常为红色显示,目故障排除前无法清除显示的内容,伴随不可关闭的不间断高分贝警告音或语音播报.注:还有一个维护级别,但该级别信息主要展示给地勤,起飞后无需关注,该级另旗息通常为白色显示,无声音,仅在地面显示或多功能显示器选择维护页面时显示。2)报警触达手段注意到上面不同的报警级别,会有一些不同的报警触达手段,以【急迫告警】级别为例:”该畿!M言息通甫为红色显示,目故障排除前无法清除显示的内容,伴随不可关闭的
6、不间断高分贝警告音或语音播报.除了上述报警触达手段,飞机上还有其他触达手段,比如在不同面板,通过颜色、声音等方式进行设计,这些方法对于报警的响应处理是一个辅助手段.* PFD显示:在主飞行仪表上显示* ND显示:在导航仪表上显示“EICAS显示:在综合信息仪表上显示“其他面板显示:在飞行省理计第机,备用仪表等其他面板上显示“主警报红:红色主警报灯亮起* 主警报黄:黄色主警报灯亮起* 专用警报灯:专用于该警报的灯光亮起* 声音警报:各种声音效果瞥报* 语音警报:语音播报的警报* 其他警报:操作杆震动等其他警报方式3)监控覆盖类型飞机报警来源很多,比如设备故障、维修不当、设计失误、航管指挥、天气、
7、鸟击、机员失误等因素,具体落地到飞机监控厦盖点包括:*引气系统监控:引气系统提供高压空气,与增压,除冰,气动液压泵,空调,引气启动等系统有关。“自动飞行系统监控:现代商业飞行全程95%以上的时间飞机由自动驾驶系统控制.“通信系统监控:检测数字通信方面的问题,主要是天地数据链.*电路有关监控:飞机电力系统十分完善,通常不可能意外断电,因此警报级别比较一股,所有电力系统的详细工作状态都可以在电力显示中查看。.引擎有关监控:发动机可以说是整个飞机中最更要最足货的设备.* 火警有关监控:驾驶舱可见的火警警报,有些区域的姻雾和火警警报反应在挺务员面板上.* 飞行操作有关监控:飞行操作系统包括多个扰流板,
8、附设,襟时爱,方向鸵,安定面,升降舵等控制面,和一系列飞行计算机,由于飞行操作系统直接关乎飞行安全,所以拥有较高的警报级SU.* 飞行管理和导航系统监控:导航帮助飞机实现高级自动驾驶,和更高的自动化飞行管理,大幅度降低机组的工作量.还有其他监控分类,比如燃油、液压、起落架、飞行保护系统、地形,姿态,风切等.我们可以看到飞机的监控包括外部环境、内部核心部件与关联性系统、飞行操作等监控,可以看到飞机监控是一个多种监控点组合而来.4)监控报警信息监控报警信息的准确性、关健信息有效传递也很击要,这样才能增加监控报警出现后,处背的高效.以下是两个咨询类报警的示例J,值得运维监控报瞥信息的学习:“警报名称
9、:机组氧气压力低警报级SU:咨询警报方式:EICAS显示:黄CREWOXYGEN1.OW触发逻辑:机组备用氧气钢瓶压力低补充信息:可在维护信息显示中查看详细状况,备用氧气仅供失压或驾驶舱烟雾状态下使用“警报名称:自动驾驶失效警报级别:告瞥,若在自动着陆系统工作时发生升级为急迫告警警报方式:EICAS显示:红AUTOPI1.OTDISC.笛声,主警报红触发逻辑:自动驾驶无法在指令的工作状态工作或飞行计算机正在放弃对飞行的控制权(包括人工断开自动驾驶)补充信息:抓住操作杆并按下自动驾驶按钮可以解除警报转入人工控制(PFD将显示F/D模式)”5)基于飞机传感器数据分折更好感知飞机状况美国五角大楼根据
10、数字孳生理论,从飞机传感器采集分析运行数据,构建一个数字享生飞机膜型,辅助飞机运维人员与飞行员进行决策.即从飞机设备运行数据采集起来,记录实体发动机的运营商、飞行小时数、运营情况、维修情况等信息,为每台发动机生成数字李生模型.采用这种数字李生技术监控飞机发动机,运营人员可以更好分析发现飞机运行的潜在风险,并触发异常报警,帮助飞机运维人员更快的发现问题.从上面飞机监控系统,捌口可以看到飞机监控系统的设计,真正落实了监控系统的“不漏报、少误报、高响应基本目标,并利用数字挛生这种上帝视角全面观察飞机运行状况.汇总一下有以下一些特点:* 外部因素、飞机设备、人工操作、自动驾驶、嫣ffi容量等多种因素都
11、可能影响飞机的正常肮行,需要实现多种监控策略与手段.* 监控报瞥进行了统一汇总,对监掰S警进行分级管理.* 为了让监控报警得到有效处理,提供了多种不同类型的监控触达方式.”分析监控采集的性能指标数据,可提供运行感知、辅助决策的数据支撑。* 飞机监控系统与自动化系统相结合,为飞行决策提供支撑.2.关于集中监控总体思路企业的生产系统要运行良好,需要保证一系列的软硬件设施的稳定运行,比如机房环控、网络设施、服务器设施、系统软件、数据库、中间件、应用服务,以及交易与客户体验层面等等因素都与稳定息息相关,经过多年的信息化建设,很多公司已针对上述软硬件设施配套了多种监控手段,但如同其它领域的信息化建设一样
12、,运维监控的信息化建设中信息孤岛,姻囱建设的问题也比较突出,以下归纳了监控工具的一些常见问题:* 缺乏持续优化监控体系的机制,既存在监控报警风展、监控误报多的现短,也存在对一些个性化的业务缺少监控翟恙,监控漏报的情况;* 缺乏统筹建设,监控工具更豆建设情况突出,且工具与工具间缺乏互联互通,无法形成互补;* 监控数据的报警事件、性能数据集中程度不够,没有有效的利用这些数据辅助运维优化工作;由于运维涉及的领域越来越多,系统架构异构情况越来越明显,没有哪一个监控工具能够做到一篮子解决方案,往往硬件厂商推长硬件监控,软件厂商搭长软件监控,DBA搐长数据库监控,业务运维擅长业务监控、性能分析团队擅长性能
13、体验监控等,基于这个现状,建议传统企业的监控平台规划可以用以下几个思路作为切入点:* 监控基本目标是“不漏报、少误报、高响应”;* 站在整个运维组织看集中监控,源端监控工具关注“不同报、少误报,集中监控平台关注少误报、高响应;* 源端监控工具采用分展方式,划分监控覆盖面能力要求;* 集中监控平台整合源端监控工具产生的性能指标、报警数据,实现通用的平台能力;* 基于数据驱动,量化不潺报、少误报、高响应J旨标,持续优化;* 利用监控性能指标、报警数据,与日志、配百、操作、流程等数据,结合算法,进一步完善不漏报、少误报、高响应的目标;基于上述的监控平台建设原则,抽象了监控能力的整体思路(如下图),建
14、立以集中监控平台的思路,确保监控覆盖面,完善监控工具,丰畜监控平台能力,并通过智能化不断提高监控手段.2.1从分想看源端监控工具为了便于监控工具的管理,做好工具间的整合,需要对监控进行整合,划分好具体的监控工具所处的作用.但大部分运维组织在运维体系建设过程中,通过不断沉淀,往往有一些深度定制的指标,在实施运维过程中己起若市要作用,短期内比较难马上替换,这些监控指标分布在不同的监控工具.建议采用一种有序整合方式,制定好监控能力整合的原则与标准,处理好工具替换的过渡方案,要处理好保留哪个工具,引入什么新的工具,需要从监控体系上分析监控覆盖面的能力要求,做好分层与具体工具的对应关系.1.监控分层架构
15、XnpamtUUNMt0司PMMQ心MBmn8三tt.at-SiHmmDB安MBASRMfifi三8MM(fiJ7.aftK*.中日,.B每一层监控的监控指标覆盖能力需要有所定义,这样就可以直观的清楚当前监控平台的监控能力濯盖面,才他不断完善以实现不漏报”的基本目阮以下是每一层指标能力的简述:D基础设施状态监控包括机房供电、空调、网络设备的软硬件状态,如设备状态等;性能监控包括设备的性能情况,比如CPU、内存大小、session数量、端口流量包量、内存溢出监控、内存使用率等;网络监控包括设备错包、丢包率,针对网络设备以及网络链路的探测延时、丢包率监控等;容艇监控包括设备负载使用率、专线带宽使用率、出口流呈分布等;由于基础设施硬牛往往己有设备健康性的检测机制,建议向这类厂商提要求,将设备的运行事件主动送到监控平台整合.2)服务器层存储:包括存储设备,以及设备上的硬盘读写错误.读写超时、硬盘掉线、硬盘介质错误服务器上的内存(内存缺失、内存配置错误、内存不可用、内存校脸)、网卡(网卡速率;电源:电源电压、电源模块是否失效)、风!弱(风扇转速等)、Raid卡(Raid卡电池状态、电池老化、电池和缓存是否在位、缓存策略)虚拟机:VCenter状况等存储、物理设备.虚拟