《上海农商行 - IT运维大数据应用方案建议书_1.0.docx》由会员分享,可在线阅读,更多相关《上海农商行 - IT运维大数据应用方案建议书_1.0.docx(43页珍藏版)》请在优知文库上搜索。
1、上海农商行IT运维大数据应用方案建议书方案建议书上海擎创信息技术有限公司2016年12日文档说明本文档所涉及到的文字、图表等,仅限于上海农商银行内部使用,未经双方书面许可,请勿扩散到第三方。文档属性属性内容客户名称:上海农商银行项目名称:IT运维大数据应用项目文档主邈:方案建议书文档编号:文档版本:版本日期:文档状态:作者:文档变更版本修订日期修订人描述1.02016412月初稿文档送呈单位姓名目的上海农商银行审阅目录1项目t述52总体方案介绍62.1 方案概述62.2 方案设计理念73平台规划104平台框架115平台建设需求(一期)135.1功能需求135.1.1采集功能需求135.1.2告
2、警分析145.1.3批量作业分析165.1.4性能指标分析185.1.5安全和合规分析195.1.6硬件故障率周期分析统计215.2非功能需求215.2.1高可用性215.2.2高性能225.2.3高可靠性225.2.4易维护性225.2.5可扩展性235.2.6易操作性236技术方案236.1需求方案236.1.1采集接口方案236.1.2告警分析方案246.1.3批量作业分析方案256.1.4性能指标分析256.1.5安全和合规分析276.2技术架构296.2.1逻辑架构296.2.2物理架构306.2.3平台能力316.2.4平台安全316.2.5数据采集326.2.6数据处理346.2
3、.7数据存储366.2.8查询引擎376.2.9告警引擎386.2.10分析引擎396.2.11展现引擎396.2.12平台管理407实施方案417.1部署方案417.2 资源需求417.3 项目计划及交付物427.4 项目交付物437.5 i)447.6 项目资源447.6.1组织机构447.6.2人员组成441项目概述随着上海农商银行业务的快速发展,信息系统日渐庞大和复杂,当前行内的IT架构早已不是单一系统或是单一设备的单纯环境,伴随而来,是规模不断扩大的IT系统,日益复杂的系统架构,以及海量的IT运维数据。数据中心运维管理难度和重要性也日渐凸显,对业务连续性要求和运维服务质量的要求也不断
4、提高,迫切需要建设一套科学、高效的运维管理体系。面对这些新形势下的挑战,IT运维管理需要从原有的人工加被动响应,转变为更高效,更智能化的运维体系,为新形势下的IT系统保驾护航。在数据大集中背景下,如何使组织和机构的IT数据进行整合,管理,维护,分析并使之再生效益,那就催生了“IT运维分析”(以下简称ITOA),是一种将大数据分析和机器学习的技术应用于现代IT运维及业务运营管理体系中的概念,它为IT运维和运营提供了全新的管理思路。本次项目的目标为在上海农商行现有IT运维管理工具的基础上建设“IT运维分析平台,帮助打破现有各个孤立系统中的运维数据孤岛,实现对上海农商行的IT运维数据的全面采集及综合
5、分析。该项目除包含端到端可视化的IT数据展示、满足规模化智能化的运维需求、通过机器学习,做到故障智能化的定位和自动处理等功能。此文档的目的是为收集、分析和定义上海农商行“IT运维分析系统”的需求,提供建议技术方案、资源方案、实施方案等,并规划未来三年的平台发展蓝图。2总体方案介绍2. 1方案概述伴随着新技术的出现和管理复杂度的增加,IT运维部门将面临前所未有的挑战: 来自传统IT及非传统IT系统的高度分散、多样和非结构化数据。 基于科技技术在数字化业务中所扮演的重要角色,结合实际业务厘清IT应用和服务对企业在营收、成本和风险方面的影响度。 预测在多大程度上技术能够支持不断变化的业务,为数字化企
6、业领导提供基于技术的重要决策咨询。 与业务保持同速,通常传统的IT运营流程无法企及,且需要尽可能规避由于提速所带来的风险。当前,上海农商行数据中心在集中的生产环境中,运行的服务器已达上千台,其上运行着重要的应用、数据库、中间件及各种辅助系统。随着业务的发展,被管理对象不断增多,通过常规的IT运营技术及工具已经不能满足需求。当前,IT部门主要通过人工的方式进行运行维护及问题检测,这种方式不但大大消耗了技术人员宝贵的时间,也无形中带来了各种操作隐患,并难以稳定的保证运维水平靠人工检查已无法满足业务发展需求,无法做到及时发现故障,快速定位问题,日检及周检工作占用了大量工作时间。方案将基于IT运维分析
7、平台框架夏洛克SharP1.OOk平台进行建设。在建设中将体现以下思路:/高效安全的集中式运维分析工具 集中高效管理通过高效数据采集手段,实现对现有IT环境的快速数据采集,打破各个孤立运维工具中的数据孤岛,对所有运维数据集中高效的存储,查询,及可视化展TPo 智能自动化处理如果故障或问题确定是由某个特定的原因引起,可进行自动监控、自动诊断,甚至自动维护。通过机器学习方式快速区分故障,降低故障率,并通过智能的故障关联方式关联相关告警及信息,如变更记录、流程工单、监控指标等,降低人工维护的成本,并能对故障进行精确定位,加快故障解决速度。 开放且符合标准的平台平台提供符合业界标准的集成接口,其体系架
8、构符合行业大数据的技术发展路线。在架构中,已经采用了成熟的行业开源技术标准中的大量组件,并支持在后期的扩展开发中,统一采用上海农商行的技术标准。/以应用为视角的业务系统管理方案还考虑以应用为视角的业务系统管理更强调的是搭建业务系统相对应的IT应用端到端视图,能够便于运维团队从用户访问侧开始,经过网络、应用服务器到后端的数据库系统,实时并直观地掌握所负责系统的应用状况与性能。同时,为了能够提高平均故障修复时间(MTTR),运维部门能够结合应用监控的数据和基础架构监控数据,利用平台的分析优化能力,快速定位出业务系统故障现象的根原因,甚至在用户未感知故障发生前主动发现问题并解决,从而提高业务可用性。
9、/决策支持的大数据支撑通过统一运维平台,建立支撑未来运维的大数据平台,提供支撑IT运维管理的分析数据。产生面向系统运行的历史分析数据,为IT运维的决策提供强有力的支持。可以实时对历史数据进行分析、挖掘来分析业务系统的发展趋势,为新业务的推出提供数据化的决策依据。通过夏洛克SharP1.oOk技术框架,并通过后期的优化开发,实现对上海农商行IT运维分析需求,做到快速数据采集、灵活方便配置、动态阈值、容量预测、集中展示,并在系统出现问题时能够快速发现问题,定位问题,同时也将提供针对运维大数据分析的能力。本次项目以夏洛克平台为基础框架,针对智能化场景(智能阈值,关联分析等场景)基于用户的实际数据进行
10、二次开发和建模工作,以满足上海农商行实际运维大数据平台的建设雪球.2.2方案设计理念本方案都助用户应对IT运维管理中的常见问题: 精细化告警:海量告警中的有效告警 追踪性能指标波动,分析连锁反应,找出根源组件、主机,并实现对未来容量的预测 日志及数据追踪查询,快速提取和展示、实时分析运维中的关键KPl指标 运维数据关联分析(指标,告警,日志,工单,变更,问题,CMDB配置库等),找出深层原因 获得实时的安全/合规事件预警,快速响应 应用的深度监控,及历史运行数据统计分析实际鞋的分析及处理历史数据的挖隘!洞察未来趋势的做I及分析运维数曳的集成和多视角的展现快速雌定位及根本原因分析业务KP【挖掘及
11、决策支持智能预泄故度数据性能数据日志数据配置数据工单数据通过运用人工智能和大数据分析技术,实现智能运维一个愿景两个目标三条主线四项能力五位一体IT运维分析中,通常需要关注以下几点: 一个愿景:通过通过运用人工智能和大数据分析技术,实现智能运维 两个目标:变被动为主动,从IT到业务。通过ITOA平台的建设,让IT运维不再是被动的救火,并且能够通过积极的介入,更多地作为业务运行中必不可少的一个环节。 三条主线:提供对实时数据的分析及处理,通过对历史数据的挖掘,能够预测对关键运行能力进行未来趋势的分析及预测。 四项能力:在ITOA平台中,必需具备数据挖掘、决策支持、故障快速定位、多角度的分析展示,才
12、能为IT运营分析提供有力支持。 五位一体:面向IT运营的平台,更多地综合IT数据中心内部的运行数据,通过对运行数据的分析,获得运营支持的关键能力。因此,数据的多方位集成是基础,通常需要的数据包括:告警故障数据、应用监控数据、系统及应用日志数据、配置相关数据以及流程服务数据(如工单、变更等)。通过IT运维分析平台的建设,可以体现的场景大致如下:(1)快速信息检索/问题定位IT运营分析平台通过收集各类数据源(包括:操作系统,系统软件,数据库,应用的日志等),统一进行管理,不同于以往每次仅可查看数量有限的几种日志,运维人员可通过平台所提供的关键字,统计函数,单条件,多条件,模糊查找等功能,多个系统中
13、快速定位故障信息,帮助运维人员从全局视角查看系统的运维数据信息。(2)复杂多维报表,应用深度监控平台将各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如,应用日志,交易日志,系统日志)进行多维度、多角度深入分析及可视化展现,以业务视角实时展示各种业务指标,比如:1 .透视交易量,展示实时的交易系统指标,交易量,平均交易时长,交易成功率,返回交易码等,对核心交易系统交易超时事件进行告警,对核心系统异常错误进行告警,并在告警中带出关键相关交易日志。2 .透视应用接口调用状态,每分钟/每天对核心业务进行关键指标统计(如调用来源,调用量,接口处理时间等),体现端到端的运维的状态3 .监
14、控实际用户体验,比如为Web访问日志创建数据模型,透视响应最慢的网页,显示最多的错误代码的等4 .另外,通过建立应用、系统、物理主机之间的逻辑从属关系,从而将平面的日志变为立体的日志。通过对日志源与对应系统的逻辑关系记录,使问题的定位更加快速、直观,使得问题的解决更加容易便捷。(3)快速发现故障,精准告警实时采集各类运维数据(日志,监控系统告警,性能数据等),通过历史数据的挖掘和分析,平台可以找出哪些告警和事件频繁一起出现,并认为是一类故障的告警,把多个报警和指标综合起来,同类的报警进行合并来推送给运维人员,做到精细化告警,避免传统监控工具因一故障而导致的告警风暴,生产告警噪音。(4)缩短故障
15、解决时间通过运维数据可视化(复杂多维报表,热力图)以及精细化告警信息,结合以前发现问题的经验知识库和模型,从而将运维信息从平面变为立体,立体展现故障树分析,通过推导路径使运维人员对于问题的定位更加快速、直观,使得问题的解决更加容易便捷。(5)故障预测,事先预警对运维数据进行数据挖掘,生成分析类报表,例如某些故障之间有时间上的先后关系,例如交换页不足,内存不足会逐渐导致系统故障或应用故障,该系统建立关联模型,发现前者故障,提醒用户可能后继可能发生系统故障或应用故障。在故障产生真正业务影响前,告知运维人员事先解决问题。3平台规划在运维平台建设的过程中,特别需集合上海农商行的实际环境和情况对平台的建设进行规划,在建设中可以根据实际的使用场景需求分为以下四个阶段:领先优势