01垂直搜索引擎应用陈建平.docx

上传人:王** 文档编号:1370492 上传时间:2024-06-23 格式:DOCX 页数:31 大小:224.50KB
下载 相关 举报
01垂直搜索引擎应用陈建平.docx_第1页
第1页 / 共31页
01垂直搜索引擎应用陈建平.docx_第2页
第2页 / 共31页
01垂直搜索引擎应用陈建平.docx_第3页
第3页 / 共31页
01垂直搜索引擎应用陈建平.docx_第4页
第4页 / 共31页
01垂直搜索引擎应用陈建平.docx_第5页
第5页 / 共31页
01垂直搜索引擎应用陈建平.docx_第6页
第6页 / 共31页
01垂直搜索引擎应用陈建平.docx_第7页
第7页 / 共31页
01垂直搜索引擎应用陈建平.docx_第8页
第8页 / 共31页
01垂直搜索引擎应用陈建平.docx_第9页
第9页 / 共31页
01垂直搜索引擎应用陈建平.docx_第10页
第10页 / 共31页
亲,该文档总共31页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《01垂直搜索引擎应用陈建平.docx》由会员分享,可在线阅读,更多相关《01垂直搜索引擎应用陈建平.docx(31页珍藏版)》请在优知文库上搜索。

1、试论垂直搜寻引擎在工商行政网监工作中的应用北京市工商行政管理局特殊交易监管处处长国家电子商务示范城市专家询问委员会成员陈建平二O一二年八月试论垂直搜寻引擎在工商行政网监工作中的应用不是万能与万万不能绪言:依据国家工商总局市场司的支配,我受北京市局领导的指派,在北京局近年来学习、探讨和实践的基础上,从应用前提、应用方式、应用发展和应用挑战四个角度,就垂直搜寻引擎在工商行政网监工作中的应用进行探讨和沟通。第一部分:我们原委需求什么?千里同行始于不同足下国家工商总局确定在全国建设工商行政网监垂直搜寻引擎以来,很多地方局的领导越来越关切这样一个问题:面对网络市场相关信息的超海量级、非均衡性、高改变率等

2、特殊属性,如何选择适合不同时期、不同地区网监工作须要的垂直搜寻引擎?这也是北京局多年来持续攻坚的课题之一。鉴于工商行政管理系统涉足垂直搜寻引擎领域的时间还不长,在本文的起先部分,实行专业性和通俗性相结合的原则,先虚拟性地描绘一个技术发展的参考坐标系以形成分析基础。此外,出于众所周知的缘由,本文未将国(境)外搜寻引擎列入分析范围。一、需求内容的选择只有节点、没有终点依据通常理解,垂直搜寻是指用户利用搜寻引擎获得互联网特定目标信息的详细行为或行为方式,垂直搜寻引擎则是支持特定用户大量、持续地获得互联网特定目标信息的专用搜寻引擎。由于不同用户对特定目标信息的类型、广度和深度存在不同的须要,相应地也会

3、对垂直搜寻引擎产生不同的需求。(一)垂直搜寻目标的选择范围从特定目标信息的搜寻广度分析,可将工商行政网监垂直搜寻引擎分为单一目标和组合目标两类。1 .单一目标垂直搜寻引擎:支持特定用户大量、持续地获得互联网某一类特定目标信息的专用搜寻引擎。从特定目标信息的搜寻深度分析,依据北京局的理解,可将适用于工商行政网监工作的单一目标垂直搜寻引擎分为三个亚类。(1)网上经营主体垂直搜寻引擎:支持特定用户大量、持续地发觉和确认经营主体开展网上经营活动的组织形式(独立网站、信息平台、交易平台、网店、其它)的专用搜寻引擎。(2)网上经营客体垂直搜寻引擎:支持特定用户大量、持续地获知与确认经营主体开展网上经营活动

4、的详细内容(商品和服务)的专用搜寻引擎。其中重点关注的是法律、法规禁止或限制生产、销售、供应的商品和服务。(3)网上经营行为垂直搜寻引擎:支持特定用户大量、持续地驾驭和确认经营主体网上经营行为方式的专用搜寻引擎。其中重点关注的是违反禁止性和限制性规定的行为方式。2 .组合目标垂直搜寻引擎:支持特定用户大量、持续地获得互联网某些类特定目标信息组合的专用搜寻引擎。从特定目标信息的搜寻维度分析,依据北京局的理解,可将适用于工商行政网监工作的组合目标垂直搜寻引擎分为“主体+客体”、“主体+行为”、“主体+客体+行为”三种组合。由于未知主体的客体和行为缺乏实际监管意义,本文未将“客体+行为的组合列入分析

5、范围。特殊说明:从特定目标信息的搜寻类型分析,还可将工商行政网监垂直搜寻引擎分为文字、图片、音频和视频等不同类别。鉴于图片、音频和视频的搜寻技术仍处于发展阶段,而且运行成本昂扬,短期内恐难大范围地应用于工商行政管理网监工作,因而本文以下内容均以中文文字搜寻为分析基础。(一)垂直搜寻引擎的研发难点垂直搜寻引擎被公认为互联网领域最困难的前沿技术之一。借鉴“更多、更快、更准的通用评价指标,北京局认知的主体垂直搜寻引擎研发难点:一是对于待搜寻目标表现形式及改变模式的认知程度,即能否高精确率地持续发觉有哪些不同形式的商务网站。二是搜寻结果与登记信息的自动匹配水平,即能否高精确率地自动识别它们是谁办的网站

6、。三是搜寻结果与监管辖区的自动匹配水平,即能否高精确率地自动区分它们是谁管的网站。北京局认知的客体垂直搜寻引擎研发难点:一是对于待搜寻目标靶向性的认知程度,即待搜寻目标是否为商事活动所指向的商品和服务。二是高覆盖率、高精确率搜寻结果(召回率与查准率)的可持续性技术实现水平,即搜寻结果能否是尽可能大且准的商品、服务集合,且其中包括违禁、违限的商品和服务子集。北京局认知的行为垂直搜寻引擎研发难点:一是对于待搜寻目标系统性的认知程度,即能否驾驭不同性质的网上违禁、违限经营行为困难多样的表现方式及其变异模式。二是高覆盖率、高精确率搜寻结果的可持续性技术实现水平,即搜寻结果能否与可知网上违法经营行为的类

7、型与量级相吻合。(三)垂直搜寻目标的选择参考北京局通过学习、探讨和实践相识到,无论对于领域专家团队还是对于技术专家团队而言,主体、客体、行为三类垂直搜寻引擎的研发难度均依次递增,且存在几何级数的难度差。如将将来一个周期的网监工作分为三个阶段,主体垂直搜寻意味着基础,因其待搜寻目标多属于结构化数据,且综合建设成本相对较低,通过“主体搜寻+人工网巡”也能开展监管工作,可将其作为第一阶段的建设重点;客体垂直搜寻意味着发展,因其待搜寻目标存在大量半结构化数据,且综合建设成本相对较高,可将其作为其次阶段的建设重点;行为垂直搜寻意味着跃迁,因其待搜寻目标多属于非结构化数据,且研发和建设成本会直线上升,可待

8、监管业务需求更加迫切、相关前沿技术更加稳定、领域专家团队更加成熟之时,将其作为第三阶段的建设重点。二、基础架构的选择只有选择、没有对错从垂直搜寻引擎技术基础与网监工作发展阶段之间的关联角度分析,依据北京局的理解,可将工商行政网监垂直搜寻引擎的基础架构分为试验级、雏形级、成型级和定型级。(一)试验级垂直搜寻引擎的基础架构目前国内尚无中文搜寻引擎规模的权威定义。从中文网页搜寻数量角度分析,国内大规模搜寻引擎一般达到百亿级,其中闻名的搜寻引擎(如百度、搜狗)已达到千亿级;国内中规模搜寻引擎(如人民搜寻)一般达到十亿级;国内小规模搜寻引擎(如部分企业和政府自建的搜寻引擎)一般在亿级或以下。元搜寻引擎是

9、通过统一的用户界面、帮助用户在多个搜寻引擎中选择和利用合适的(或多个)搜寻引擎以实现检索操作,属于对多种检索工具的全局限制机制。元搜寻引擎虽无网页搜寻机制,亦无独立的索引数据库,但在检索恳求提交、检索接口代理和检索结果排序方面都有独特的技术支持。试验级垂直搜寻引擎的基础架构:是基于中、小规模搜寻引擎或元搜寻引擎的定向数据挖掘。主要优势:技术门槛低,研发周期短,资金投入少。主要代价:承载实力弱、应用限制强、扩展空间小。假如不设定较高的工作标准,而且忽视通用搜寻引擎对元搜寻引擎运用者的限制因素,在地方局网监工作的初始阶段,这一级别的架构应能体现出较高的性价比。(二)雏形级垂直搜寻引擎的基础架构雏形

10、级垂直搜寻引擎的基础架构:是基于大规模通用搜寻引擎的、面对对象的数据挖掘。主要优势:一是借助大规模通用搜寻引擎的搜寻实力和数据资源,可显著提高搜寻结果的召回率和时新性。假如忽视部分交易平台对搜寻引擎的限制因素,它可使网监工作视野接近全网级水平。二是融合了领域专家的专业学问和面对对象的数据挖掘技术,可较好地满意特征相对稳定、规律相对清晰、样本相对充分的垂直搜寻需求,能够显著提高合法主体商务网站的查准率,以及初步解决非法主体商务网站和经营客体的垂直搜寻。三是承载实力较强,应用限制较小,扩展空间较大。主要代价:一是对领域专家需求探讨水平的依靠度较高。二是技术门槛较高,资金投入较多,研发周期较长。三是

11、受通用搜寻引擎网络爬虫抓取策略的限制,搜寻召回率的提升空间有限。四是难以有效解决违法经营行为的垂直搜寻。在地方局网监工作的初步成型阶段,这一级别的架构应能体现出较高的性价比。(三)成型级垂直搜寻引擎的基础架构成型级垂直搜寻引擎的基础架构:是基于大规模通用搜寻引擎的、“定向抓取+面对对象”的数据挖掘。在确定意义上可将其视为雏形级的升级版。主要优势:增加了针对专业需求的网页定向抓取功能,可突破通用搜寻引擎网络爬虫抓取策略的局限,进一步提高搜寻结果的召回率,以及非法主体搜寻和客体搜寻的查准率。假如忽视部分交易平台对搜寻引擎的限制因素,它可使网监工作视野初步达到全网级水平。主要代价:一是搜寻引擎的运营

12、成本明显增大,从而导致系统建设资金的增加。二是仍难以有效解决特征相对不稳定、规律相对不清晰、样本相对不充分(如网上违法经营行为)的垂直搜寻难题。在地方局网监工作的成型阶段,这一级别的架构应能体现出较高的性价比,只是目前在国内政府网监工作领域还缺少胜利范例。(四)定型级垂直搜寻引擎的基础架构定型级垂直搜寻引擎的基础架构:是基于大规模通用搜寻引擎的、“定向抓取+面对用户”的数据挖掘。主要优势:引入了“面对用户“这一正在快速发展的数据挖掘技术,可逐步解决网上违法经营行为的垂直搜寻难题。假如忽视部分交易平台对搜寻引擎的限制因素,它可使网监工作视野达到全网级水平。主要代价:一是因面对用户的数据挖掘技术尚

13、未成熟,简洁影响系统的稳定性。二是对领域专家团队的需求探讨水平依靠度很高。三是技术门槛、研发周期、资金投入和运行成本均高于其它级别。在地方局网监工作的定型阶段,这一级别的架构应能体现出较高的性价比,只是目前在国内政府网监工作领域尚未出现。小结:整体还是局部,这是一个问题。求同还是存异,这也是一个问题。渐进还是冷越,这还是一个问题。令人激昂的是,发展垂直搜寻引擎的千里之行,已正式始于全国工商行政管理系统领导和干部的足下。或许技术架构只有选择、没有对错,业务需求只有节点、没有终点。或许初期探究以借助公共为宜,目标选择以适合阶段为好,架构设计以预留空间为佳,技术突破以地方尝试为先,总体规划以全国统筹

14、为上。其次部分:它能帮助我们什么?定位是一项累人的差事网络市场的虚拟性和多变性极易造成“互联网迷雾”,对于管理部门因时、因地进行工作定位造成了较大困难,从而可能干脆影响网监工作的效能。垂直搜寻引擎或能帮助我们识得庐山面目、摆脱工作迷航。北京局目前运用的第一代商务网站垂直搜寻引擎始建于2006年,属于雏形级、单一目标垂直搜寻引擎,初步实现了北京合法主体独立商务网站的自动搜寻。受限于现有技术和监管实践的水平,对于垂直搜寻引擎在工商行政网监工作领域的应用,本文只能进行特别有限的分析。一、帮助我们有策略地开展行政执法没有比较就没有鉴别犹如于工商行政管理其他监管工作一样,“管什么?”、谁来管?”和“怎样

15、管?”也是网监工作的基础性问题。不同于工商行政管理其他监管工作的是,由于“互联网迷雾”的作用,网络市场的广域性与行政管理的地域性之间存在着广泛的冲突。垂直搜寻引擎或许能够帮助我们找寻解决之道。(一)帮助我们了解“管什么?”尽可能刚好、精确、全面地驾驭经营主体从事网上经营活动的组织形式,或许是实施工商行政网监工作的第一前提。对此,我们可能有五种解决途径。第一种途径:通过经营者自主公示以驾驭网上经营主体。这已是一条有规可依的途径,只是须要留意三个潜在的限制因素:一是如不建立统一的公示系统,信息归集将遇到较大困难;二是如建立统一的公示系统,可能受到行政许可法的约束;三是如不能校验公示主体的覆盖率,整

16、体市场掌控实力将受到限制。其次种途径:通过建立监管部门协作机制以驾驭网上经营主体。这的确是一条捷径,仍旧须要留意两个潜在的限制因素:一是在现行管理体制和政治文化范畴内,协作机制能否具备全局性和稳定性;二是在相关部门缺乏法定审查职能的状况下,能否保障获得信息的精确性和整体性。第三种途径:通过建立“政-企合作机制”以驾驭网上经营主体(如C2C交易平台)。这也是一条捷径,亦需留意两个潜在的限制因素:一是由于客观存在的角色冲突,获得信息的真实性、全面性和时效性能否得到保障;二是由于网络市场的多样化特征,此类合作机制的适用范围存在较大的局限性。第四种途径:通过建立垂直搜寻引擎驾驭网上经营主体。这确定不是一条捷径,然而是一条工商行政管理机关自主、自强之路,当然也须要进行“成本一收益”分析。第五种途径:通过以上随意两种或全部途径的综合,以有效提高网上

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!