《数据库投资商和企业数据采集处理项目技术方案.docx》由会员分享,可在线阅读,更多相关《数据库投资商和企业数据采集处理项目技术方案.docx(56页珍藏版)》请在优知文库上搜索。
1、数据库投资商和企业数据采集处理项目技术方案投资商与企业数据采集处理项目项目编号:15300000000617001206技术方案XXX有限公司二。一七年六月1引言31.1 项目背景31.2 项目目标31.3 建设原则31.4 参考规范41.5 名词解释52云数据采集中心72.1 需求概述72.2 总体设计72.3 核心技术及功能93大数据计算平台323.1 需求概述323.2 总体设计323.3 数据模型设计334数据运营364.1 数据挖掘分析364.2 数据分析处理的要紧工作364.3 数据分析团队组织与管理375安全设计406风险分析447部署方案458实施计划469技术规格偏离表471
2、0售后服务承诺5011关于运行保护的承诺5312保密措施及承诺5413培训计划561引言1.1 项目背景XXX大数据中心建设出发点考虑从投资者角度涵盖招商全流程,尽可能为投资者解决项目实施过程中的困难与问题,便于招商部门准确掌握全省招商数据,达到全省招商项目数据共享,形成全省招商工作“一盘棋、一张网、一体化”格局。大数据中心将充分发挥大数据优势,加强对企业投资项目、投资轨迹分析,评估出其到XX投资的可行性,为招商过程留下痕迹、找到规律、明辨方向、提供“粮食”、提高效率,实现数据寻商、数据引商、数据助商,实现数据资源实时共享、集中管理、随时查询,实现项目可统计、可监管、可协调、可管理、可配对、可
3、跟踪、可考核。本次数据运营服务要紧是为大数据平台制定数据运营规范及管理办法,同时为“企业数据库”提供数据采集、存储与分析服务,并根据运营规范要求持续开展数据运营服务。1.2 项目目标 制定招商大数据运营规范及管理办法。 制定招商大数据有关元数据标准,完成有关数据的采集、整理与存储。 根据业务需求,研发招商大数据招商业务分析模型,并投入应用。 根据运营规范及管理办法的要求持续开展数据运营工作。1.3 建设原则基于本项目的建设要求,本项目将遵循下列建设原则: 前瞻性与高标准整个项目要按照企业对大数据应用的需要的高要求与高标准建设,参考行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一定前瞻
4、性。 经济性与有用性整个项目以现有需求为基础,充分考虑未来进展的需要来确定系统的架构,既要降低系统的初期投入,又能满足服务对象的需求,同时系统设计应充分考虑对已有投资的保护,对已建立的数据中心、基础平台、应用软件应提供完备的整合方案。 先进性与成熟性为了确保项目具有较长的生命周期,应充分考虑到管理创新、技术进展需要,按照先进的建设理念,选择先进的技术架构与成熟技术,满足业务需求。 高性能与安全性规范地进行系统建设与开发,提供合理且经济有效的应急方案,确保系统的稳固,向各类服务对象提供可靠的服务。具有安全性,在系统遭到攻击或者崩溃时能快速恢复,确保重要数据的机密性与完整性。1.4 参考规范GB/
5、T20269-2006信息安全技术一信息系统安全管理要求GB/T20984-2007信息安全技术一信息安全风险评估规范GB/T 22239-2008信息安全技术一信息系统安全等级保护基本要求GB/T 22240-2008信息安全技术一信息系统安全等级保护定级指南GA/T388-2002B计算机信息系统安全等级保护管理要求GB/T8567-1988计算机软件产品开发文件编制指GB/T11457-1995软件工程术语GB/T11457-2006信息技术软件工程术语GB/T16260.1-2006软件工程产品质量第1部分:质量模型GB/T 16260.2-2006 软件工程产品质量第2部分:外部度量
6、GB/T 16260.3-2006 软件工程产品质量第3部分:内部度量GB/T 16260.4-2006 软件工程产品质量 第4部分:使用质量的度量GB/T14394-2008计算机软件可靠性与可保护性管理GB/T17544-1998信息技术软件包质量要求与测试1.5 名词解释 S2DFS:简单存储分布式文件系统(SimpleStorageDistributedFileSystem) D2B:分布式数据库(DiStribUtedDatabaSe) JSS:作业调度服务(JobSehedUIerSerViCe) DCS:数据计算服务(DataComputerServrice) MPS:消息处理服
7、务(MessageProcessSendee) SDS:流数据处理服务(StrCamDataSerViCe) DMQ:分布式消息队列(DiStribUtedMeSSageQUeUe) JGS:作业生成服务(JObGeneratiOnSerViCe) ACS:自动清理服务进程(AUtOmatiCQeaningSerViCeS) SMB:服务器信息块协议(ServerMessageBlock)2云数据采集中心2.1 需求概述根据规划,云数据采集中心的建立至少满足1至2年内的数据存储与计算规模,需要满足:数据采集范围包含但不限于世界500强、全国500强、行业20强企业有关数据。总数据容量至少达到3
8、0T。2.2 总体设计整个云数据采集中心分为三部分:硬件资源层、软件平台层、软件应用层。硬件资源层要紧指实体硬件设备,包含用来存储数据的光纤阵列柜与存储服务器用来作统计分析与搜索用的计算服务器用来部署分布式消息DMQ)/WEB/APP软件的WEB及消息服务器,用来部署用PostgreSQL关系数据库软件的应用数据库服务器,用来部署作业调度服务进程(JSS)的作业调度服务器。作为数据通信用的全千兆三层交换机等等淇中光纤阵列柜要紧用来存储统计分析后的粗颗粒度数据。存储服务器用来部署分布式文件系统与分布式数据库,同时存储非结构化与结构化(台标图片,电商图片等等)与结构化数据行为数据,索引数据,log
9、数据,清理后的细颗粒度数据等等)计算服务器要紧用来完成数据的清理、统计、搜索等计算任务。为了节约成本与减少通信代价,建议存储服务器与计算服务器合二为一,因此该服务器同时具有计算与存储数据的功能,前期也能够考虑把作业调度服务进程(JSS)进程部署在存储/计算服务器上。由于云数据采集中心需要面对多种宽带用户(电信、移动、联通)因此,数据中心的对外的网络需要直连上电信、移动、联通三家公司的网络,保证以上三家公司间的通信性能高速与可靠。软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计与实施的主体部分,在核心技术章节会对“分布式文件系统(S2DFS)”、“分布式数据库(D2B)”、“分布式消
10、息服务(DMQ)”“作业调度服务进程(JSS)、数据计算服务进程(DCS)”要紧部分加以全面的描述。软件平台层的所有服务器都统一部署的64位操作系统CentOS6.5(也能够选择RHEL6.5x64);其核心软件或者者进程有:分布式文件系统(S2DFS)、分布式数据库(D2B)、作业调度服务进程(JSS)、数据计算服务进程(DCS)、作业生成服务进程(JGS)消息处理服务进程(MPS)、流数据处理进程(SDS)等等。WEB及应用服务器软件Apache&Tomcat,消息队列软件分布式消息(DMQ)。还要实现整个云数据采集中心的资源管理及监控管理系统。软件应用层是云数据采集中心的功能实现及UI表
11、达层,功能实现需要基于软件平台层的支撑,后期设计与实施的主体。该层的要紧功能应用有:数据采集应用、数据统计应用、云数据采集中心的资源监控及调度。开放 平台CentOS 6.5 64睡4BI-:奈存储设备网络设备服务器设备企业数据采集,投资商数据采柒,采柒任务管理I云数据管理I云中心监控云数据采集中心整体架构图云数据采集中心网络结构图2.3 核心技术及功能2.3.1 分布式文件存储技术(1) 传统存储技术面临的问题: 构建成本高:大容量及高网络带宽的高端存储系统架构昂贵。 文件系统功能与性能差强人意:难以实现全局命名空间的文件共享、文件系统难以扩展,容易形成瓶颈。 扩展性困难:技术存在瓶颈(Sc
12、ale-up架构决定的)扩展成本无法操纵。 可用性问题:潜在的单点故障,数据恢复困难,代价高。应用目标差异:要紧面临运营商、金融行业的OLTP应用、很少针对海量的流数据,或者者非结构化数据进行设计与优化。异构设备繁杂:不一致时期、不一致公司、不一致操作系统的异构设备纷繁复杂,无法整合,资源利用率极低。分布式文件系统要紧为解决以上问题而出现的一种新型大规模数据存储技术架构。要紧为非结构化数据(视频/文件/文档/图像/音频等非结构化数据)提供海量的存储平台,以集群的方式提供线性横向扩展能力。分布式文件系统是一种构建于通用86部件之上的高可用、高可靠、高可扩展的新型分布式文件系统。应用分布式文件系统
13、,用户能够使用廉价可靠的通用服务器、SATA/SAS硬盘与以太网络来构建媲美企业级存储产品的存储系统。(2) 分布式文件系统应对的数据特性与访问特性: 数据量巨大,数百TB或者PB级,增长迅速; 类型多样化,包含图像、文本、语音、视频等文件数据; 按时间有序生成,数据均带有的时候间标志; 前端数据写入速度很高,每秒钟写入数据可达几万甚至几十万条记录或者者上GB量数据; 更新操作极少:追加方式写入,一旦写入,几乎没有数据修改,查询涉及大量的磁盘读操作,查询处理产生大量的临时结果,不一致类型的数据存在联合分析查询;分布式文件系统的基本原理是使用集群方式来整合物理上独立的多个存储资源,以软件方式提供
14、单一的名字空间使用多副本的方式保证数据的高可用性,任意单一节点失效均不可能导致数据丢失与数据服务的正常运行;同时,分布式文件系统通过良好设计的系统结构与数据分布策略,可保证系统性能的高可扩展性,并支持存储容量/性能的在线扩展。相比较于DAS(直连存储)SAN(存储区域网络)与NAS(网络存储)应用分布式文件系统构建的网络存储系统更像是一个NAS提供类似于传统NAS的文件级访问接口(SAN与DAS都是块设备级别的访问接口)(3) 分布式文件系统与传统NAS/SAN设备的比较:比较项高端NASFC-SAN分布式文件系统性能通常双端口,性能受机头影响,难以扩展,出口带宽是瓶颈通常双端口,性能受机头影
15、响,难以扩展,IOPS较好性能随节点数的增加成线性增长扩展能力性能及容量无法扩展,或者者有限扩展能较好扩展,但成本高昂性能及容量按需扩展,动态均衡可用性RAID方式保护,双机保护,停机RAIDRebuid,耗时RAID方式保护,双机保护,停机RAIDRebuid,耗时基于灵活的多副本机制,自动检测,自动故障恢复,无需停机数据管理企业级功能需要单独购买企业级功能需要单独购买(还需要单独的文件系统,100多万一套)内嵌多种企业级应用:快照、镜像、回收站成本专有的硬件平台,软件拥有成本高,扩展成本高专有的硬件平台,软件拥有成本高,扩展成本高开发通用的硬件平台,一体化的软件,成本低,扩展成本低可保护性专门的技术支持服务,需要培训结构特殊复杂,需要大量培训,厂商服务昂贵内嵌多种自动化的故障检测与恢复功能,国内开发,技术支持快速用户使用分布式文件系统如同使用本地文件系统。所不一致的是,传统NAS通常以单一节点的方式实现,容量与性能的