《资源数据采集技术设计方案和对策要点.docx》由会员分享,可在线阅读,更多相关《资源数据采集技术设计方案和对策要点.docx(17页珍藏版)》请在优知文库上搜索。
1、目录第1部分概述21.1 项目概述21.2 系统建设目标31.3 构造原理31.3.1 构建原则31.4 参考文献和标准5Part2系统总体架构及技术路线52.1 系统应用架构62.2 系统层次72.3 关键技术与路线8第3部分系统设计11第4部分详细的系统设计12第1部分概述1.1 项目概况互联网已经发展成为当今世界上最大的信息库和在全球范围内传播知识的主要渠道。庞大的信息服务网络,站点遍布全球,为用户提供了非常有价值的信息来源。个人发展和企业竞争力都越来越依赖于网络信息资源的使用。现在是信息时代,信息是一种重要的资源,它在人们的生活和工作中发挥着重要的作用。计算机和现代信息技术的飞速发展,
2、使互联网成为人们传递信息的重要桥梁。随着网络的不断发展,伴随着大量信息的产生,如何在海量信息源中寻找和收集所需的信息资源,成为我们未来建设在线预订旅游网络的重要内容。因此,在当今高度信息化的社会,信息的获取和信息的及时性。Web数据采集可以通过一系列方法自动搜索互联网上特定类型的信息,根据用户兴趣,剔除不相关数据和垃圾数据,过滤虚假数据和滞后数据,过滤重复数据。根据用户要求将信息直接呈现给用户。可以大大减少用户的信息过载和信息丢失。1.2 系统建设目标在线预订旅游网站是提供在线机票、酒店、旅游行程等旅游商品的网站,包括餐饮、住宿、旅游、旅游、购物、娱乐等方面的综合信息、综合旅游信息和预订服务。
3、.如果用户想要收集有关此类网站的数据,通常的做法是手动浏览网站以查看最近更新的信息。然后将其复制并粘贴到Excel文档或现有资源系统中。这种方法不仅费时费力,而且在搜索过程中可能会遗漏,在数据传输过程中可能会出现错误。针对这种情况,在线预订旅游网络信息自动采集系统可以实现数据采集的高效化和自动化。1.3 速设原则1.3.1 施工原则由于在线预订旅游网络的数据采集涉及多方面、数据量大、采集源的数据结构多样。因此,在项目建设过程中,应遵循以下原则:可扩展性根据实际需要,系统可以轻松加载、减少和灵活扩展,使系统能够适应变化和新情况。可以实现模块级别的动态扩展,并且是运行时的。所谓运行时模块的动态扩展
4、,比如如果需要添加一些新的功能,可以按照BUndIe组织新开发的类和文件,然后直接扔到运行时环境中,这些功能就可以用过。因此,不会通过技术改造对系统进行重新调整。创新的软件投资应考虑到未来发展,不得使用过时的产品和技术,以免造成投资浪费;在系统软件和开发技术的选用上,要达到国内外先进水平。规范和标准整个设计方案,从网络协议、操作系统到各种设计细节,都应遵循通用的国际或行业标准,并符合相关国家标准。低耦合采集系统与其他系统相对独立,直接基于txt/xml进行数据库存储、SQL同步或数据交换,保证整个系统的低耦合。效率底层技术采用java语言实现,跨平台,跨数据库,运行效率极佳。安全、稳定、准确、
5、及时采用先进的算法,使用多个子系统和工具,形成安全、稳定、准确、及时的解决方案。方案整体设计遵循稳定、开放、可扩展、经济、安全的原则,使整个方案组成合理、技术先进、易于扩展,既能满足当前业务数据处理需求,也满足长远发展的需要。易操作易维护原则整个系统易维护、易操作、易学、易使用。完全通过WEB完成,降低了维护的技术难度,减少了人为隐患的发生。1.4 参考文献和标准主要参考和依赖以下参考资料和标准:中国项目管理知识体系(C-PMBOK),2001.5 GB/T1526-1989信息处理数据流程图、程序流程图、系统流程图、程序网络图和系统资源图的文档符号和约定 GB/T8566-1995信息技术软
6、件生命周期过程 GB/T8567-1988计算机软件产品开发文件编制指南 GB/T9385-1988计算机软件需求规范编制指南 GB/T13702-1992计算机部件分类及代号 GB/T11457-1995软件工程术语第2部分系统整体架构及技术路线网络信息资源采集系统是一个功能强大的网络信息资源开发、利用和整合系统,可用于定制、跟踪和监控互联网实时信息,建立可复用的信息服务体系。它可以从各种网络信息源中收集用户感兴趣的特定信息,包括网页、博客、论坛等,经过自动分类处理后,以各种形式提供给最终用户。2.1 系统应用架构 网络蜘蛛:按照规定的规则抓取网站数据。 数据分析:分析来自网络蜘蛛的数据并过
7、滤掉不需要的信息。 数据解析:根据指定资源格式(字段)的定义进行数据库字段级解析。 分组分析:根据不同的网络资源类型进行分类,以多种存储方式存储。2.2 系统层次结构浏览器表现层-X网络资源采集数据转换数据导出数据发布网络请求应用层l、采集监控数据分析消息通知登录验证数据处理任务计划常用脚本库认证码识别WEB服务器应用服务器规范接口其他支撑层关系数据文本文件数据图片视频数据数据层整个系统分为四层,即: 数据层:数据层负责存储采集到的各种信息和数据,包括网页、文档、关系数据、多媒体数据等。 支撑层:支撑层提供关键的软硬件支撑系统,包括应用服务器、WEB服务器、标准接口等标准支撑系统。 应用层:应
8、用层主要提供网络资源采集、数据转换、分析、处理、导出、发布、采集监控、消息通知、登录验证、任务规划、认证码识别等服务。 表示层:表示层通过浏览器等方式为用户提供多种信息服务。2.3 关键技术和路线为了充分满足本项目的建设:我们采用先进、主流、可靠、实用、性价比高的三层架构体系,并充分考虑未来的纵向和横向扩展能力。系统采用面向组件和面向对象的技术,具有灵活的扩展性和良好的可移植性。2.4 3.1J2EE规范体系从软件层面,我们采用了典型的J2EE三层架构体系,即应用-支持-数据三层。简单地说,J2EE(Javatm2PlatformEnterpriseEdition)是一中标准的中间件架构,旨在
9、简化和标准化多层分布式应用系统的开发和部署。有了它,开发者只需要集中精力编写代码来表达应用程序的业务逻辑和表现逻辑,至于其他系统问题,如内存管理、多线程、资源分配和垃圾回收等,将由J2EEoJ2EE已被国内外许多成功的应用实例证明是一个稳定、可扩展、成熟的平台。J2EE应用服务器(APPliCatiOnServer)采用世界上最先进的开发理念,具有很多适合基于Internet的应用需求的特点: 三层结构系统最适合互联网环境,可以使系统具有很强的可扩展性和可管理性。 面向对象、基于组件的设计2EE是一种组件技术。完成的模块可以方便的移植到其他地方,可以提高开发速度,降低开发成本。 基于JAVA完
10、整的跨平台特性独立于平台,可以适应互联网的需求,可以得到大部分厂商的支持。用户可以根据需要选择合适的服务器硬件和数据库。而且如果需要改变系统平台,J2EE也可以很方便的移植。将J2EE三层架构软件系统引用到资源收集系统中,斗寻大大提高系统的可移植性、可扩展性和可扩展性。2.3.2XML技术XML(extensibleMarkupLanguage,可扩展标记语言),是最流行的网络技术之一,被誉为“第二代Web语言”、“下一代网络应用的基石”。自提出以来,几乎得到了业内所有大公司的支持。XML具有卓越的性能,它具有四个特点: 优秀的数据存储格式 可扩展性 高度结构化 便捷的网络传输以XML技术为支
11、撑,为用户定制应用接口和业务数据结构,实现与底层数据库定义格式、接口标准输入输出的接口转换,可实现分布式、异构应用系统之间的通信。数据交换。我们在本项目中将主要使用XML作为存储方式,方便扩展和数据分析。2.3.3WEB2.O技术到WebI.O(2003年之前的互联网模式)。这是一场从核心内容到外部应用的革命。哈佛大学社会心理学教授斯坦利米尔格拉姆(StanIeyMiIgram)发现,你和任何陌生人之间最多不超过六个人,这意味着你最多可以通过六个人认识任何一个陌生人。.)、XML、AJAX等新理论、新技术实现互联网的新一代模式。从单纯通过网络浏览器浏览html页面的Webl.0模式,到内容更丰
12、富、连接更强、工具更强大的Web2.0互联网模式,已成为互联网的新发展趋势。从Webl.0到Web2.0的转变,具体来说,就是从单纯的“读”到“写”、“共建”的模式发展;它正在从被动接收互联网信息向主动创造网络信息迈进。在运行机制上,由“ClientServer,变为uWebSerViCes”;作者从程序员和其他专业人士发展到所有普通用户;在应用方面,它已经从初级的“搞笑”应用发展到综合性的大规模应用。采用创新的Ajax技术,在相同的网络环境下,页面响应时间最多可减少90%o2.3.4系统集成APIXML文档结构可以很容易地从多方面反映对象的结构,这也是其适用于面向对象软件技术的一个关键点。使
13、用XML对数据源的数据进行处理,起到接口层或封装的作用,使数据可以在不同的应用程序之间、不同的操作系统之间、不同的数据库之间进行交换。使用XML作为数据交换工具也可以解决异构数据库之间的集成问题。针对本项目涉及的数据采集、转换、分析、处理等问题,我们将开发专用的数据接口,并采用XML技术作为页面描述规范进行数据交换。XStream是用于在Java和XML之间进行转换的工具。使用起来非常简单,转换过程可以自定义,但是这个组件只能做最基本的工作。有了这个组件,我们就不需要考虑特定的Java对象和XML之间的问题了。第3部分系统设计规范第4部分系统详细设计4.1 应用功能设计4.1.1 资源收集我们
14、可以利用采集来挖掘网络上的各种资源。a)采集项目:采集工作的详细设置文件,包括要采集的资源链接。1 .准确:根据指定资源格式(字段)的定义,进行数据库字段级别的采集。2 .蜘蛛/爬虫:根据指定的文件匹配表达式,自动对指定网站的资源进行综合分析和采集。b)场:各种资源的最小单位。例如,如果你想在一个网站上收集多个帖子,每个帖子可能包含以下字段:作者、标题、日期、内容等。c)链接页面:一些帖子在多个页面中。在这种情况下,您可以为帖子的内容字段设置链接页面属性,以自动将多个页面的内容合并到内容字段中。d)跟踪:某些资源仅通过单击列表页面中的多个页面来显示。在这种情况下,您可以自动设置内容的跟踪属性以
15、自动获取最终内容。e)登录验证:某些资源站点要求您登录才能访问内容。在这种情况下,您可以为整个网站、每个链接、甚至每个资源单独定义登录验证,以满足特定需求。1 .参数:这些是模拟登录所需的参数,例如用户名、密码等。2 .登录采集项目:一些网站的登录认证比较复杂,经常用到一些动态的参数/值。如果固定参数不能满足登录需求,可以使用采集工程自动获取登录参数的值。3 .登录脚本:如果使用采集项目仍然无法满足某些特殊网站的登录需求,可以使用自定义登录脚本实现相应的登录认证。f)数据处理:1 .脏字过滤:过滤符合国家规定的敏感字符,可自定义过滤字符,确保采集内容符合相关法律法规。2 .垃圾邮件过滤:使用贝叶斯概率模型自动分析收集到的内容,判断是否为垃圾邮件。您可以自己过滤各种垃圾邮件。3 .内容嗅探:对于Flash/SiIverIight播放器,页面加载后会从后台获取实际文件(.F