《信息检索技术.ppt》由会员分享,可在线阅读,更多相关《信息检索技术.ppt(59页珍藏版)》请在优知文库上搜索。
1、信息检索技术信息检索技术n一、信息检索技术综述n二、信息检索的统计模型n三、信息检索中的自然语言处理方法一、信息检索技术综述n1、信息检索系统的定义与术语n2、信息检索系统n3、信息检索系统的评价n4、信息检索简史一、信息检索技术综述n1、信息检索系统的定义与术语 信息检索,最早是1952年由Calvin N.Mooers提出的,其原义包括海量信息的存储和查找两个方面的内容。 信息检索按照信息源的不同分为3类(互联网、光盘数据库、网络数据库) 信息检索定义 是指从非结构化的数据记录,特别是包含自由格式的自然语言文本的数据记录中获取与用户的信息需求相关的数据记录的系统、方法与过程。 “非结构化”
2、主要是与数据库检索相区分。一、信息检索技术综述n2、信息检索系统 n 一个信息检索系统是一个能够对数据全集的数据记录进行存储、组织与维护,并根据用户查询获取相关信息的系统。如下图所示:用户接口数据库管理索引构建文档文本操作用户查询文本操作用户查询处理搜索相关度排序用户需求检索到的文档索引文档用户反馈查询相关度排序后文档文档数据库语义词典倒排文件一、信息检索技术综述n2、信息检索系统 n 信息检索系统由8个就基本处理模块和两大系统资源组成。基本处理模块是:用户接口模块、用户查询文本操作模块、文档文本操作模块、用户查询处理模块、索引构建模块、数据库管理模块、搜索模块、相关度排序模块等。n两大系统资
3、源是:语义词典和以数据库形式存放的数据全集一、信息检索技术综述n2、信息检索系统 n用户接口模块:是与用户交互信息,主要包括接受用户查询请求,根据用户对信息检索结果的反馈调整信息检索系统的有关参数,显示用户查询的结果等。一、信息检索技术综述n2、信息检索系统 n用户查询文本操作模块:对用户的查询字串进行过滤停用词、词干抽取等处理,并转换为机器内部的用户查询表示形式。一、信息检索技术综述n2、信息检索系统 n文档文本操作模块:对文档数据库中的文档进行停用词过滤、词干抽取等处理,并将文档转换为机器内部的表示形式,供建立索引模块处理。一、信息检索技术综述n2、信息检索系统 n用户查询处理模块:是对用
4、户查询的词汇进行同义词扩充,或者根据用户对信息检索的倾向性对查询的词汇进行转换处理。n索引构建模块:是建立从词汇到该词汇出现的文档的倒排索引表,从而对用户查询中的词汇进行快速定位。插入内容:倒排索引n什么是倒排索引什么是倒排索引呢?请看下面的例子:假设文章1的内容是:aaa bbb ccc ddd文章2的内容是:bbb ddd yyyn上面的对应关系是:“文章号”对“文章中所有关键词”。倒排索引把这个关系倒过来,变成:“关键词”对“拥有该关键词的所有文章号”。文章1,2经过倒排后变成:插入内容:倒排索引 aaa 1bbb 1,2ccc 1ddd 1,2yyy 2n当建好了上面所示的倒排索引后,
5、一旦我们要查找哪些文章中含有某个关键字时,只需取出该关键词所对应的文章号就行了。比如我们查找aaa,返回1.查找ddd,返回1,2一、信息检索技术综述n2、信息检索系统 n数据库管理模块:将文档以数据库的格式存储、管理和访问,n搜索模块:根据用户查询,借助倒排序索引表和数据库管理模块从数据库中抽取出包含用户查询关键字的文档,n相关度排序模块:逐一计算用户查询与搜索模块返回文档的相关度,最后将这些文档按照相关度由大到小排序。一、信息检索技术综述n3、信息检索系统的评价n 一个系统在实际应用中的时间和空间消耗是衡量一个系统优劣的重要指标。n评价信息检索系统的一个核心因素即:相关性n两个最常用的相关
6、性指标是:精确度和召回率一、信息检索技术综述n3、信息检索系统的评价n精确度:是检索获取的相关数据记录个数与检索获得的所有数据记录个数的比值。它反映了系统能够返回与用户查询相关数据记录的能力。n召回率:是检索获取的与用户查询相关的数据记录个数与数据全集中所有与用户查询相关的数据记录个数的比值。反映了系统能够找到全部相关数据记录的能力。一、信息检索技术综述n3、信息检索系统的评价n精确度: Precision=n召回率: Recall=A为信息检索系统获取的数据记录的集合,R为数据全集中所有与用户查询相关的数据记录的集合|ARA|RRA一、信息检索技术综述n3、信息检索系统的评价nVan Rij
7、sbergen于1979年提出了E度量,将精确度和召回率结合起来,并赋予不同的权值:其中P为精确度,R为召回率,在0-1之间。RPE1)1 ()1(11一、信息检索技术综述n4、信息检索简史n1950年美Calvin N.Mooers首创“信息检索”n1958年美Luhn提出统计检索基本理论方法n1960年Marson和Kuhns提出信息检索概率模型n1965年美康奈尔大学Gerard Salton及其学生提出信息检索向量空间模型向量空间模型,并设计实现了SMART系统n1966年在Cranfield项目中提出系统评价方法。一、信息检索技术综述n4、信息检索简史n1968年美Rocchio和S
8、alton提出查询扩展方法n1972年Lockheed公司推出DIALOG系统n1980年代:模糊集、模糊推理、线性回归技术、通用向量空间模型n1990年代:潜在语义索引技术、贝叶斯网络、神经网络技术n基于互联网的大型搜索引擎n信息检索技术向深度和广度发展二、信息检索的统计模型n信息检索领域的技术和方法可以划分为两大类:基于统计的方法和基于语义的方法。n基于统计的方法主要是根据用户查询与数据全集中数据的统计量度计算相关性n基于语义的方法对用户查询内容和数据全集中的内容进行语法语义分析。即对用户查询和数据全集内容理解的基础上进行两者的相关性计算。二、信息检索的统计模型n概念:对实际信息检索过程加
9、以抽象构成的数学模型。n一个信息检索模型IRM=(D,Q,R)n其中D是文档集合,Q是用户需求的集合,nR: 是集合D和Q的笛卡儿积笛卡儿积到实数集R的一个映射,对每个用户查询q,每个文档d,映射R将(d,q)映射为一个实数,称为用户查询q与文档d的相关度。RQD笛卡儿积简单说明n笛卡儿积是集合论中很重要的概念 n举例:n1,2,3 a,b,c,d = (1,a), (1,b), (1,c), (1,d), (2,a), (2,b), (2,c), (2,d), (3,a), (3,b), (3,c), (3,d)。 二、信息检索的统计模型n1、基于统计的信息检索模型n2、布尔模型n3、向量空
10、间模型n4、概率模型二、信息检索的统计模型1、基于统计的信息检索模型n在统计模型中,文档被表示成关键词的集合,又称为文档的平面结构,关键词又称为索引词,p138文本表示示例n词汇的权重表示该词汇的重要性。n文档dj表示为一个N维向量,表示为 Dj=(w1,j,w2,j,wN,j)二、信息检索的统计模型1、基于统计的信息检索模型n在统计模型假设文档中词汇彼此独立n假设词汇在文档中没有二义性n西文需要词干抽取n中文需要分词二、信息检索的统计模型2、布尔模型n文档中索引词只有0和1 两种取值,分别表示文档中包含该索引词和不包含该索引词。用户查询是由标准逻辑操作符AND,OR,NOT连接构成布尔表达式
11、。n例如:设关键词为k1,k2,k3,k4,k5,数据全集为:D1,D2,D3,D4,D5。二、信息检索的统计模型2、布尔模型n其中D1=k1,k2,k3,k4,k5,D2=k1,k3,k4,D3=k2,k4,D4=k1,k3,k5,D5=k4,k5n若用户查询为k1 AND (K1 OR NOT(k3)n结果为:D1,D2,D4 (D1,D3 D3,D5)=D1布尔模型的优缺点优点:机制简单,检索效率高,因此在早期的商用信息检索系统中得到普遍的应用。缺点:分类能力有限,仅能分为相关、不相关两大类,而不能给出相关性大小的数值,因此经常出现高度相关的文档排序靠后的现象。二、信息检索的统计模型3、
12、向量空间模型n在向量空间模型中,文档表示为由索引词的权重构成的N维向量:dj=(w1,j,w2,j,wN,j)n用户查询也可以表示成N维向量q=(w1,q,w2,q,wN,q)n计算两者的相似度Similarity(q,dj)n关键:索引词权重的计算、两者相似度计算二、信息检索的统计模型(一)权重的确定n(1)词频与倒文档频度法n(2)最大正规化法n(3)对数词频法n(4)余弦正规化法二、信息检索的统计模型(1)词频与倒文档频度法 该方法将一个索引词在单个文档中的重要性和在整个数据全集中的重要性结合起来,成为一个统一度量。 一个词在文档中出现的频度是该词重要性的标志之一,wi,j=TFi,j=
13、freqi,j(索引词Ki在文档dj中的频度) 一个索引词的权重还应该与该词所在的文档总数文档总数成反比或近似反比关系,它反映了包含该索引词的文档区别于其他文档的程度。二、信息检索的统计模型(1)词频与倒文档频度法其中n为数据全集中文档总数,ni为包含索引词i的文档总数.总上所述,一个索引词ki在文档dj中的权重为:iinnIDFlogijijiIDFTFw.,TF.IDF举例例:一个数据全集共有文档10000个,某索引词A在某一个文档中出现了20次,在数据全集中,有2000个文档包括了A,则索引词A的TF.IDF值为:98.13200010000lg20TF.IDF缺点:n主要没有考虑文档中
14、索引词的总数,例如:一个在100个词构成的文档中出现10次的词,应该较1000个词构成的文档中出现20词更为“重要”。因此我们应该考虑文档中索引词总数对权值的影响。二、信息检索的统计模型n(2)最大正规化法n针对TF的改进主要是将词频进行正规化处理,将它映射为一个在0,1中的量。改进方法之一是将词频除以某个与包含该词文档的索引词总数相关的因子。max,jkkjijifreqfreqTF最大正规化法的缺点n当文档中某词的词频很大,而其它词频相对较小的时候,使用该方法会出现多数词汇TF值较小,并且彼此相差不大。二、信息检索的统计模型n(3)对数词频法n此法减少了文档中少数高频词对权重的影响,相对降
15、低了高频词权重的取值,减轻了文档长度的变化对这一取值的变化影响。1)log(,jijifreqTF二、信息检索的统计模型n(4)余弦正规化法n另一类正规化方法是通过整个文档向量长度来实现。当一个文档向量构造完成后,该向量的每一维都设定了对应索引词的TF.IDF值,将这个向量的所有维上的这些值都除以该文档向量的欧氏长度,既得到经过正规化的文档向量。一个向量的一个向量的欧氏长度是该向量上所有分量平方和的平方根欧氏长度是该向量上所有分量平方和的平方根。由于经过正规化后的向量具有单位长度,而且在每一维上的值恰好是该向量及其在这一维上相应坐标轴上投影的夹角余弦值,因此称为余弦正规化法。解决少数高频词对其
16、他词权值扰动过大。二、信息检索的统计模型n(二)相似度计算n相似度是用户查询与文档相关性的量度。nSimilarity(d,q)取值通常满足如下条件:n非负性: Similarity(d,q)=0n对称性: Similarity(d,q) =Similarity(q,d)n若Similarity(d,q)=0,表示完全不相关nSimilarity(d,q)越大,相关性越大nSimilarity(d,q)取值范围正规化为0,1nSimilarity(d,q)=1,表示完全相同二、信息检索的统计模型n(二)相似度计算n简单的相似度计算是计算这两个N维向量的内积nN维向量经过余弦正规化后,其内积恰是两个向量夹角的余弦:Nijiqiww1,iq),(dSimilarityNiqiNijiNijiqiwwww12,12,1,jq),(dSimilarity维向量维向量设有设有n,2121 nnbbbaaa nnbababa 2211, 令令 . ,的的与与为为向向量量称称 内积内积向量内积的定义维向量间的夹角维向量间的夹角单位向量及单位向量及n .1 , 5 , 1 , 33 , 2 , 2 ,