《夏洛克ITOA运营大数据技术白皮书.docx》由会员分享,可在线阅读,更多相关《夏洛克ITOA运营大数据技术白皮书.docx(18页珍藏版)》请在优知文库上搜索。
1、夏洛克IT运维大数据平台技术白皮书版本号开始日期结束日期修改者说明状态1.02016/08/262016/08/29AdamsQu文档创建、编写初稿目录1. IToA运维大数据分析产生的背景42. 夏洛克ITOA运维大数据分析解决方案介绍43. 更洛克平台功能53.1 1海量数据采集功能63.2 全局索引和搜索功能63.3 复杂多维(实时)报表及仪表盘功能73.4 主动监测和告警功能83.5 排障助手93.6 安全功能94. 典型应用场景104.1 1端到端应用交易深度监控IO4.2 可视化智能运维114.3 安全预警及合规115. 平台技术参数135.1 1、数据采集135.2 全局搜索14
2、5.3 实时报告和仪表盘145.4 主动监控/事件警告155.5 分权管理155.6 安全架构156. 关于我们151 .ITOA运维大数据分析产生的背景随着信息架构与应用系统日渐庞大,现行IT架构中,早已不是单一系统或是单一设备的单纯环境,伴随而来,是规模不断扩大的IT系统,日益复杂的系统架构,以及海量的IT运维数据。公司业务对IT系统的连续性要求也进一步提高,面对这些新形势下的挑战,IT运维管理(IToM)需要从原有的人工加被动响应,转变为更高效,更智能化的运维体系,为新形势下的IT系统保驾护航。因此在数据大集中背景下,如何使组织和机构的IT数据进行整合,管理,维护,分析并使之再生效益,那
3、就催生了ITOperationalAnalytics-IT运营大数据分析(以下简称ITOA),是一种将大数据分析和机器学习的技术应用于现代IT运维及业务运营管理体系中的概念,它为IT运维和运营提供了全新的管理思路。2 .夏洛克ITOA运维大数据分析解决方案介绍夏洛克ITOA运维大数据分析平台通过采集散落在各个系统的运营数据(如传统ITOM系统的监控数据,操作系统及应用日志数据等),帮助在单一位置实现所有IT设施数据的实时监控、搜索和分析。夏洛克ITOA的设计与使用概念就像是Google谷歌搜索引擎一样,组织和机构一旦部署了夏洛克的搜索引擎之后,IT人员就可以透过浏览器对组织和机构的各个系统的运
4、营数据进行关键词搜寻,快速地得到所需要的数据,除此之外平台本身还具有计算能力,管理者可以透过夏洛克将搜寻所得的结果立即做运算处理,产生各种报告、图表与警示,而且还可以设定进行排程定时搜寻,并将结果以EmailAIert方式通知相关人员。通过卓越的性能和高拓展性的数据展示和监控能力,使用户可视化全局监控信息系统资源和健康状态,以及关键业务系统的指标。并且能够协助管理人员快速搜寻各种应用系统、网络设备所产生的大量运营过程数据,透过各种相对应的关联性来找出各种IT事件的源头,进而协助管理人员解决IT营运会遇到的各种问题。解决方案框架:3,夏洛克平台功能系统功能逻辑框架:数据可视化 应用状态可 趋势可
5、视化 故障亘三化 异常可视化 影像可视化3.1海量数据采集功能ITOA运维大数据分析平台具备多样且弹性的数据搜集方法,可以检索各种型态的IT运营数据,不限定数据样式,并收集来自各种不同的应用系统和网络设备。通过利用所有数据(结构化和非结构化数据)来全面了解IT运维活动,其中包括:事件、日志、告警、性能和任何指标。 网络流量与事务处理 日志文件 警告/报警与事件 性蟒标 核心文件与内存痕迹 配置文件 服务请求 故险通知单 会谈 CMD%资产 用户文档与技术文档 全平台支持能力一主流操作系统,数据库,中间件,容器,存储,以及主流监控系统 海量数据实时,高频采集能力(秒采) 自助监控能力扩展能力一自
6、定义脚本/模块化的方式扩展监控能力 容错,流量控制,以及采集端健康状况以及数据完整性检查。3.2全局索引和搜索功能IToA运维大数据分析平台具备快速自定的各种型态搜寻,而不是只有固定几种的字段,不需要指定数据的格式,更可结合时间与关键词进行搜寻,呈现出清楚的搜寻结果,使用上就像百度、Google一样的直观易用。Man 键入关键词后任意搜寻 既时的在线查询,立即产生长时间结果 用交互比对查询,收敛事件范围 用时间、关键词与复杂流程拼凑关连事件3.3 复杂多维(实时)报表及仪表盘功能将各系统的运维数据进行统计分析并生成各类实时报表,对各类运营数据(如,应用日志,交易日志,系统日志)进行多维度、多角
7、度深入分析及可视化展现,以业务视角实时展示各种业务指标,以及帮助关联分析平台提供强大的报表能力,能够将搜寻结果以各项清晰的图表呈现,更可弹性化地产制出组织和机构管理阶层所想要的报告内容。 无须透过其他工具可直接产出报表 可从多数据源中获取,并基于关键主键进行聚合关联分析和串联展示 8种报表格式,如直方图、线性图、分区图、圆饼图、单点图等 支持向下钻取:皆为动态报表可随时点选并进行特定搜寻通过实时和直观的仪表板/报表,达到运维可视化的目的,包括应用状态可视化,趋势可视化,故障可视化,异常可视化,影响可视化,业务KPl可视化3.4 主动监测和告警功能ITOA运维大数据分析平台能够定期/实时执行,并
8、依据搜寻结果发出各项警示通知,可以透过emai1.脚本等方式链接其他管理接口,可触发执行自行定义的因应方式,例如重新启动应用程序、系统或网络设备。 Email发送警告 可制订不连续时间启动自动搜寻并发送警告 可以呼叫SCriPt延伸应用3.5 排障助手通过时光机,使IT和非IT数据互联,经关联分析所有数据(指标、事件和日志)之间的关系,更快地分析根本原因。3.6 安全功能组织和机构的IT信息其重要性不言可喻,ITOA运维大数据分析平台可进行用户数据访问权限管理,安全管控,确保数据在存取、分析和稽核时不会破坏数据的完整性。用户联机与数据访问权限控制不变更原始数据的完整性4 .典型应用场景4.1
9、端到端应用交易深度监控夏洛克IToA平台将各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如,应用日志,交易日志,系统日志)进行多维度、多角度深入分析及可视化展现,以业务视角实时展示各种业务指标,比如:HHiiiiiimiiiiiniiiiiiiniiII1.”,Mjl.”1 .透视交易量,展示实时的交易系统指标,交易量,平均交易时长,交易成功率,返回交易码等,对核心交易系统交易超时事件进行告警,对核心系统异常错误进行告警,并在告警中带出关键相关交易日志。2 .透视应用接口调用状态,每分钟/每天对核心业务进行关键指标统计(如调用来源,调用量,接口处理时间等),体现端到端的运维的
10、状态3 .监控实际用户体验,比如为网页访问日志创建数据模型,透视响应最慢的网页,显示最多的错误代码的等4 .另外,通过建立应用、系统、物理主机之间的逻辑从属关系,从而将平面的日志变为立体的日志。通过对日志源与对应系统的逻辑关系记录,使问题的定位更加快速、直观,使得问题的解决更加容易便捷。4.2 可视化智能运维实时采集各类运维数据(日志,监控系统告警,性能数据等),这类运维数据包含的信息足以让我们实时监控和追查到以下几点:/系统的资源统计和实时监控/系统健康状况监控/查找故障根源/系统瓶颈诊断和调优/追踪安全相关问题如挖掘和监控如下分类指标:业务层面,如业务每秒访问数,每秒交易数,每分钟支付、创
11、建订单等应用层面每个应用的错误数,调用过程,访问的平均耗时,最大耗时等系统资源层面如CPU使用率、内存使用率、交换分区使用率、磁盘使用率、load、主进程存活等网络层面如丢包、Ping存活、流量、tcp连接数等4.3 安全预警及合规平台可让您非常容易跨越IT束缚监控安全性事件,比如:搜寻您路由器及防火墙日志文件中的数据流违反情况,寻找服务器及应用程序上的违反情况,或是寻找未经授权或不安全的配置变更。运用趋势分析、分类及执行识别功能,即可快速识别极为复杂的使用情况,例如可疑的执行及模式,或是网络活动的变化。报警功能可透过电子邮件、或触发脚本寄送通知,可轻易与您现有的监控主控台整合。报警还能触发自
12、动化动作,以便立即/数据泄露DataExfiItration/恶意软件命令和控制行为MalwareCommand&ControlActivity/可疑的帐户行为SUSPiCioIlSAccountActivity/未经授权的登录尝试/活动UnailthOriZed1.oginAttemPtS/Activit/可疑的服务器操作行为SuspiciousServerBehaviors/不寻常的IDS/IPS事件UnUSUalIDS/1PSEvents/异常网络活动UnIlSIlalNetworkActivity/攻击IP地址AbIlSiVe/AttackingIPAddresses禁用/追访记录Di
13、sabIedInterrupted1.ogging5 .平台技术参数技术架构图:数据持久化数据处理数据采集结构化蟾非结构化雌缓存鱼询语义映射引擎叁询语法(非培构化数据宣询解释器AST补充)分析模型及较枳型I业务模型机网学习查询引擎分析引擎告警引擎展现引擎平台管理51、数据采集1 .多平台支持:支持主流操作系统(WindOws,1.inux(SUSE,Redhat,Ubuntu,CentOS),HP-UX,IBMAIX)、数据库系统(MySQ1.,Oracle,DB2,PostgreSQ1.,MSSQ1.等)、应用软件(TonICat,IIS等)、网络设备、安全设备(Syslog,SNMPTra
14、p)进行自动采集。2 .数据源支持:可支持常用日志文件和目录,二进制文件,SYS1.OG,数据库,性能数据,WMI等3 .循环日志支持1.Ogrotation4 .配置数据可动态获取/并推送更新(如OUtPUt地址,协议PrOtoCOI,Spitter,采集频率等),默认的全局配置(default),单独定制(IOCal),可以支持服务端配置推送到Agent5 .避免消息丢失FIOWControl:内置的流程控制器尽量日志消息的传输丢失6 .本地缓冲管理-支持本地缓冲管理,以防止诸如网络问题等造成Agent服务在一段时间内无法连接上采集服务器而导致的数据丢失7 .安全传输-支持T1.S/SS1
15、.的安全数据数据传榆协议,确保传输数据加密8 .Agent健康管理-统一查看Agent状态信息以及性能,可配置重试次数,连接超时等参数9 .支持本地脚本运行Runningscriptedinputs-可通过Agent运行本地脚本,作为数据源的输入10 .数据采集频率可配置:批量/定时上传记录。11 .多字符集支持:UTF-8、Iatin-2等5.2、 全局搜索1 .键入关键词后任意搜寻,像使用百度,GOOgIe一样搜索数据2 .搜索结果能在海量数据中快速获取(秒级)3 .搜索语法接近于自然语言4 .可在搜索过程中提取字段,并将字段加入为搜索条件和统计条件5 .即时的在线查询,立即产生长时间结果6 .用交互比对查询,缩小事件范围7 .用时间、关键词与统计函数,进行