《银行数据中心全栈智能运维方案.docx》由会员分享,可在线阅读,更多相关《银行数据中心全栈智能运维方案.docx(18页珍藏版)》请在优知文库上搜索。
1、银行数据中心全栈智能运维方案随着金融科技的不断变革,银行的网络整体规划和建设思路也在不断追赶新时代银行业务的发展需要。随之而来的是银行数据中心的网络规模不断扩大,从最初的单中心逐渐延伸到多地多中心运营的模式,使用的网络技术也从传统的交换路由、负载均衡、防火墙逐步发展到软件定义网络、网络服务虚拟化等各类新兴技术。同时,在金融需求越来越旺盛,银行业务发展越来越快的当下,银行数据中心出现异常运行而造成的损失和后果就愈发严重。在云计算、大数据等新兴技术不断涌现的新形势下,如何保障数据中心安全生产运行,高效率、高质量地运维庞杂的网络环境,已成为银行信息科技部门的必答题。一、银行数据中心运维建设背景根据银
2、监会编制的中国银行业信息科技“十三五”发展规划监管指导意见中明确指出:提高运维自动化水平,打造智能化运维体系。意见表明:提高基础资源和应用部署的自动化水平,实现快速交付、动态调整、弹性部署,降低人工操作风险,自动化部署比例不低于75%。持续推进生产运维监控精细化、自动化、智能化建设,强化系统风险和故障的早预警、早定位和早处置。实现应用层面交易全流程、全节点监控全覆盖,结合应用系统交易特性及相关数据的分析对比,提升交易过程监控的智能化水平。强化容量管理,做好相关资源的动态规划,预防非计划性、突发性的容量瓶颈问题发生。强化运维、开发、安全、风险管理的信息共享和一体化协作,提升多方联动能力。加强运维
3、大数据分析,利用运维大数据加强业务风险防控,探索利用运维大数据推动业务流程优化并支持业务创新。二、银行数据中心网络运维痛点随着银行数据中心信息系统规模逐渐壮大,信息科技部的运维工作任务日益繁重,传统的局部、粗放、碎片化的IT运维管理模式已经无法满足新形势下业务连续性保障的实际需求。在现有的银行运维体系下,运维管理的工作涵盖从机房基础设施,到各类网络及网络设备、服务器、操作系统、数据库、中间件、各级业务系统所引发的各类事件和问题,如容量不足、故障恢复、灾备转移等等内容。银行IT运维也面临着应用系统繁多,系统间关联关系负责,业务环节繁多等压力,而在日常运维工作中,事件处理中信息不全、问题描述不准确
4、、关键信息缺失等情况,也给运维部门带来重重困难。(1)银行数据中心的系统硬件从型号、品牌呈现数量多、品牌多的特点,难以统一管理。(2)支撑业务系统的虚拟化、云计算、大数据、微服务、容器、信创等技术趋势迅速翻新,迫IT环境复杂度、规模都急剧提升;节点分布范围更加广,物理位置不统一,对故障定位、变更升级等运维工作带来新挑战。(3)新增业务需配置多厂商、多类型设备,各厂商设备配置命令千差万别,协议繁复,配置极其复杂,大量重复性的策略开通工作,费时费力;而上云的业务也同样面临异构多云跨厂商业务开通的难题。(4)银行业务的多元化发展,对系统和网络设施的依赖性不断增加,在传统运维方案中,难以自动发现业务应
5、用拓扑关系和交易访问路径,难以直观定位业务节点,故障根源定位慢,缺乏对业务系统整体健康状况和运行趋势的监测,无法判定业务系统是否存在运行瓶颈。(5)跨部门排障行为复杂,需较长时间进行故障定位,无法达到精准化报警;同时由于系统和应用间交互关系复杂,往往需要多部门联动、多环节并发式排障,造成异常处置不及时。(6)银行运维数据存储分散,缺乏统一数据标准,存在数据一致性、准确性、完整性不足等问题,不易管理及挖掘价值,难以评估系统当前和未来对资源的需求,及资源分配的合理性。(7)银行数据中心的安全生产水平,依赖于开发、测试、运行以及业务、风险管理、支持保障等多个部门,在实际运维工作中,运维职能难以清晰界
6、定,部门间协同存在客观难度。(8)在银行实际运维工作中,部分场景问题解决过度依赖专家人员,解决方案没有形成知识,难以传承复用,也无法持续扩展打造自身知识运营体系。三、智和信通运维方案银行作为对IT系统可用性、业务系统稳定性要求极高的金融机构,对整体网络架构的可靠性、安全性等方面提出更高要求。银行数据中心的网络运维涉及网络可视化、故障管理、性能管理、业务管理、配置管理、变更管理、应急保障等多方面的需求。同时,因业务的特殊性,客户对银行服务中断和性能问题的容忍度较低,运维需求已由单纯的实现IT支撑,逐步转变为支持业务发展,平稳应对业务量持续及爆发式增长,保障用户体验等方面的需求,因此在系统异构的现
7、状下,如何保障业务连续性和高可靠性建设正在逐步成为银行数据中心运维的重点。北京智和信通深入分析银行运维需求,针对银行数据中心基础架构复杂度不断增长,服务器数量急剧增加,业务复杂度快速发展的现状,提出自动化运维方案,为银行网络保驾护航。1、异地网络架构可视化目前大型银行基本采取全国数据集中管理的模式,在网络架构上采用“全国一网”的形式。网络架构中软硬件环境涉及的技术复杂,厂商众多。北京智和信通通过网络架构拓扑可视化能力,将网络数据从离线表格转移至平台内,从静态的网络架构数据转化为动态智能拓扑,实现全网设备、资源、链接关系、IP等实时更新、快速定位。在动态拓扑上展现设备实时状态,通过树形、平面结构
8、联动展示设备间链接关系,通过按片区、按地域、按层级等多种布局方式划分网络,使用不同颜色、粗细、图标表示被管理对象的状态信息,助力运维人员实时了解网络架构及全网运行状态,快速感知资源、链路、流量等异常信息。2、两地三中心的灾备架构可视化为满足银行对业务稳定运行与快速恢复,确立“两地三中心”的灾备模式,即数据中心、同城灾备中心和异地灾备中心,非常重要。但是异地+多中心的模式,给网络可视化运维管理带来极大挑战。北京智和信通自动化运维方案通过多维管理视图,对不同品牌、类型、版本的网络设备、安全设备、无线设备、存储、主机、中间件、数据库、虚拟化、应用服务、视频监控等IT资源进行统一、全方位、多层次的综合
9、管理,实时分析资源当前性能和运行状态,直观反映资源的动态变化对支撑业务的影响。银行架构拓扑示意图3、端到端全链路可视化从整体维度到局部维度全面展示银行网络内设备链路各项指标,整体可观测、可告警、可分析、可统计,通过实时监控各个端口以及每条线路的通断情况和性能指标,结合专业的流量监控分析能力,对链路容量进行即时监控,并生成流量分析报告,为容量规划提供依据。针对银行双运营商网络的模式,对双链路进行管理,通过不同颜色展示主备线路,支持自动切换监控线路,实现主线路掉线设备显示红色,副线路掉线设备显示棕色,全掉线显示灰色。4、全网资源统一监控本方案实现网络设备信息高频采集,并结合智能算法,实现对整体网络
10、架构、设备运行状态、业务可用状态的实时信息采集和感知。通过对银行网络中海量设备的智能解析和关联分析,结合全流量采集分析能力,形成整个网络通信链路的多端网络流量分析链,助力运维人员从多个维度实现对相应告警的智能分析,解决传统运维监控中关联数据缺失,辅助排障信息不足的问题。 全网软硬件设备统一监控方案针对银行网络内各类设备、业务系统构建统一、智能监控体系,对业务系统、操作系统、基础设施、主机存储、数据库、中间件、虚拟化、云、数据中心机房等全方位监管。屏蔽厂商、型号差异,全面掌握银行网络整体运行情况和运行效能,能高效、快速、精准进行故障定位诊断。设备资源可视化显示,全网带宽、流量监控与回溯分析方案基
11、于海量流量数据的存储挖掘,实现对网络流量的侦测分析。通过网络流量分析技术,采集、分析、存储所有网络流量,回溯分析数据包特征、异常网络行为,以多维数据分析和深度挖掘为手段,实现数据包层面的流量追踪,发现潜伏于网络中的未知攻击。针对银行中业务专线、物联网专线等专线线路管理需求,通过实时监控和定期对专线线路的使用情况进行统计分析,为每条专线的扩容或缩容提供数据依据。从设备、接口、IP、服务、应用、会话、QoS等层级的实时流量监控和历史流量分析,识别带宽消耗较大的应用程序、服务、协议或IP地址,避免网络容量过载,并提升最终用户网络体验。 IP地址分配与管理银行对IP地址管理的唯一性与安全性存在极高要求
12、,北京智和信通自动化运维方案支持端到端规划、部署、管理和监控IP地址。通过智能IP扫描能力,定义多层次子网,扫描其范围内每个IP地址的当前状态,包括IP地址,MAC地址等信息,也可以查看IP段内地址使用详情,便于银行信息科技部进行IP地址分配管理等。通过端口视图及列表视图的形式,展示当前IP地址的使用情况,可查看某个子网的IP现网详情信息,如IP、掩码、主机名、设备类型、现网MAC、现网接入设备、现网接入端口、规划MAC、规划接入设备、使用人等,可批量分配IP地址,保障了IP地址使用的唯一性。o产0C通过黑白名单配置,通过黑白名单功能用来检测用户所关心的设备是否在网络中出现及出现时间,对非法接
13、入设备进行告警处置。支持IP-MAC绑定,对全网MAC和IP进行配对绑定,并周期性对MAC-IP进行检测,当IP-MAC的绑定关系发生冲突时产生告警,保证入网终端安全可信。 视频设备集中监控本方案可对不同品牌、不同型号的摄像头进行统一运维,融合网络高清、智能分析、多级管控为一体。支持监管视频监控体系涉及的视频前端设备(摄像头、卡口、编解码器),传输设备(光纤收发器、EPON等)内场设备(网络与安全设备、主机/虚拟机、存储设备)、机房动力环境等多种设备,等统一接入、集中管理。并通过网络拓扑一键自动发现生成能力,直接生成视频系统可视化拓扑,通过定时轮询和事件上报进行可用性和健康度检查。视频监控效果
14、示意图平台轻松对接多品牌、型号摄像头,通过。nvif接口协议和智能化识别技术,实现对视频画面自动侦测、自动提取,主动监控发现和分析出摄像机设备常见的故障,如设备不连通、画面偏色、信号缺失、清晰度异常、亮度异常等问题和原因,并及时在拓扑图中显示出当前视频监控的可用情况。设备模型库监管无限制方案采取用户自定义设备类型及其设备资源的方式,赋予用户自定义适配设备的能力,最大可能地支持对不同设备类型的支持。通过自定义设备类型及其设备资源,最大限度上提高了智和网管平台的管理范围,真正实现了对设备及其资源的全面化管理,达到管控万物的目标。5、全面适配国产信创环境平台以JAVA高级编程语言为基础,从功能块、数
15、据库、界面全部基于统一JAVA技术平台和统一数据关系模型。智和信通国产信创能力采用Java、HTML5跨平台技术,全面兼容国产化操作系统、数据库、中间件、CPU和虚拟化等,支持包括:中标麒麟、银河麒麟、中科方德、达梦、人大金仓、南大通用、神州通用、华为虚拟化、H3C虚拟化、深信服虚拟化等。6、业务可用性管理银行业务系统流程从终端用户侧的柜面、网银、手机银行,到ESB业务系统总线,再到后端核心系统,每个环节互相关联影响。本方案以保障业务可用性为基础,通过对承载业务的IT基础设施构建真实的业务模型。银行业务系统示意图方案通过构建业务系统与部门、IT资源及关键指标的关联关系,整合前端、应用、后台任务
16、、外部服务、数据库及基础设施,直观呈现面向服务的业务系统体系架构;直观、便捷地帮助运维人员对银行内办公系统、交易系统、支付系统、网银系统、基金系统、保险系统、官网、手机APP系统等进行监控,掌握业务的运行状态和健康水平,了解业务动态变化趋势,快速定位故障源,降低运营风险。业务看板不意图7、实时故障预警,及时洞察异常信息北京智和信通银行数据中心自动运维方案,通过统一的故障管理平台,将各个模块中的监控信息统一采集、分析,实现整个银行网络中各种事件信息、设备故障、网络异常、流量异常等告警,以智能化手段进行标准化的分析、压缩、并归关联等,通过多种方式实时传达告警信息,保证落实到指定人员进行处理,为银行提供主动式的故障解决方案。全面采集银行内所有联网设备,如存储、服务器、路由器、交换机、防火墙、虚拟化、云、自动提款机、自动存