《词项Term加权问题细节.ppt》由会员分享,可在线阅读,更多相关《词项Term加权问题细节.ppt(31页珍藏版)》请在优知文库上搜索。
1、1IR(继续)参考Jaime Carbonell讲稿和Modern Information Retrieval2Todays Topics 词项(Term)加权问题细节 Generalized Vector Space Model(GVSM)最大边界相关法(Maximal Marginal Relevance)Summarization as Passage Retrieval(基于片段提取的综述)3词项加权问题 我们有了“共有词汇”假设:“文档”和“查询”等价于它们含有的词汇集合,它们的相关性可以完全由共有词汇的情况来决定 向量空间模型 最简单的:二元向量,只是刻画一个词项的出现与否 稍复杂
2、些:计数向量,刻画一个词项在文档(查询)出现的次数 一般的:我们可以考虑“以文档集合为背景,一个词项在一篇文档中的权重”4Term Weighting Revisited(1)Definitionswi“ith Term:”词,词根,或者索引的短语,统称“词项”Dj“jth Document:”文本索引的单位,例如,一篇网页,一个新闻报道,一篇文章,一个专利,一个法律案例,一本书,书的一章,等等。(根据需要确定这个基本单位)5Term Weighting Revisited(2)DefinitionsC,一个收藏(收集,Collection):一个索引文档的集合(例如,1998年人民日报的所有
3、文章,Web等)Tf(wi,Dj)“Term Frequency:”,词频,wi 在文档Dj中出现的次数。人们有时候通过除以该文档中最大的非停用词的TF对Tf进行规格化 Tf norm=Tf/max_TF.),(max)(max_jiDwjDwTFDTFji6Term Weighting Revisited(3)DefinitionsDf(wi,C)“document frequency,文档频率:”,wi 至少在其中出现一次的文档的个数.Df通常,我们取规格化的结果,即除以C中的文档总数。IDf(wi,C)“Inverse Document Frequency”:Df(wi,C)/size(
4、C)-1.多数情况下人们用 log2(IDf),而不是直接的IDf。7Term Weighting Revisited(4)词项在词项在TfIDf意义下的权重(相对于一个文档)意义下的权重(相对于一个文档)一般来讲:TfIDf(wi,Dj,C)=F1(Tf(wi,Dj)*F2(IDf(wi,C)通常,F1=0.5+log2(Tf),or Tf/Tfmaxor 0.5+0.5Tf/Tfmax通常,F2=log2(IDf),“抑制函数”在Salton的SMART IR系统中:TfIDf(wi,Dj,C)=0.5+0.5Tf(wi,Dj/Tfmax(Dj)*log2(IDf(wi,C)8TFIDF的
5、(启发式)含义 一个词项在一篇文档中的“重要性”和它在该文档中出现的次数成正比(局部)和它在文档集合中涉及文档的个数成反比(全局)重要性设计的目地 区别两个文档对同一个查询的相关程度 共有词(频)越多,则相关程度应该越高(同一性强)如果一个共有词在文档集合中出现得很普遍,则由它反映的相关程度应该越低(区分性差)9探个究竟 K.Papineni,“Why Inverse Document Frequency,”Proc.North American Association for Computational Linguistics,2001,pp.25-32.证明了IDF在某种距离函数意义下的优
6、化特性。10Term Weighting beyond TfIDf(1)概率模型概率模型 传统概率方法(计算q和d相关的概率)R.R.Korfhage,Information Storage and Retrieval.John Wiley&Sons,Inc.,New York,1997 G.Marchionini,Information Seeking in Electronic Environments.Cambridge University Press,New York,1995 Improves precision-recall slightly 完整的统计语言学模型(CMU)Imp
7、roves precision-recall more significantly 概率模型的共同缺点是计算效率不够高11Term Weighting beyond TfIDf(2)神经网络神经网络 理论上有吸引力 不幸的是,基本谈不上什么可扩展性(规模不能大)模糊集合模糊集合 研究还不够深入,也会有扩展性的困难12Term Weighting beyond TfIDf(3)自然语言分析法自然语言分析法 首先分析和理解Ds&Q 采用某种基于自然语言理解的IR理论,从d中获取和q相关的子集 一般来讲,自然语言理解依然是一个尚待解决的问题 即使我们能做,还有一个可扩展性问题 到现在为止,自然语言理
8、解的方法只在很有限的领域对IR有所改善。13Generalized Vector Space Model(1)原理原理 通过其在多个文档中出现的模式(occurrence patterns)来定义词项 对查询中的词项也同样定义 相似度的计算基于对d和q中重叠的模式来进行14Generalized Vector Space Model(2)好处好处 自动包含了部分相似的效果 如果“heart disease”,“stroke”和“ventricular”共同出现在许多文档中,那么即使查询只包含其中一个,则包含其他几个的文档也会得一些分,和它们的文档“共生率”成一定比例。不需要做查询扩展或者相关性
9、反馈15Generalized Vector Space Model(3)不利因素不利因素 计算开销较大 效果=“向量空间+Q扩展”的效果16GVSM的具体实施(1)将文档集合表达为一个向量:Let C=D1,D2,.,Dm 将每一个词项按照其在文档集合上的分布也表达成一个向量:Let vec(ti)=Tf(ti,D1),Tf(ti,D2),.,Tf(ti,Dm)定义词项之间的相似度:sim(ti,tj)=cos(vec(ti),vec(tj)这样,经常同时出现的词,例如“Arafat”和“PLO”,“北大”和“创建一流”等就会较高的相似度(near-synonyms,其实是共生词)17By
10、the way Synonymy,同义词,影响recall Polysemy,多义词,影响precision18query-document的相似度计算相应变化,sim(q,d)不再是q和d的向量点乘,而是用上述“词项-词项”相似度的某个函数。例如,对q的每一个词项,分别得到它和d中词项的最大相似度,将这些最大相似度加起来得q和d的相似度:sim(q,d)=imaxj(sim(tqi,tdj)通常也以q和d的长度为基础做规格化:simnorm(Q,D)=GVSM,How it Works(2)|),(DQdqsimMaxji19GVSM,How it Works(3)主要问题:主要问题:需要较
11、大的计算量(sparse=dense)主要好处:主要好处:自动完成了通过语料的term expansion20对于单纯追求相关性的一种批评(1)IR Maximizes Relevance precision and recall是关于相关性的度量 忽略了所获取文档的质量问题(高相关不一定是高质量的)21对于单纯追求相关性的批评(2)其他重要的因素其他重要的因素 信息的新颖性novelty,时新性timeliness,freshness,合适性appropriateness,有效性validity,可理解性comprehensibility,强度density,.?信息获取,我们其实是要最大化
12、:P(R(f i,.,fn)|Q&C&U&H)其中 Q=查询,C=文档集合,U=用户背景,H=交互历史,fi=某种因素.but we dont yet know how.Darn.22最大边界相关 Maximal Marginal Relevance 一种粗浅的近似:novelty=minimal-redundancy 加权线性组合,重新确定文档序值:(redundancy=cost,relevance=benefit)自由调整参数:k and 23Maximal Marginal Relevance(2)MMR(Q,C,R)=Arg maxkdi in Csim(Q,di)-(1-)maxd
13、j in R(sim(di,dj)Q,查询 C,所有文档的集合 R,已得到的一个以相关度为基础的初始集合 Arg maxk*,给出集合中k个最大元素的索引24Maximal Marginal Relevance(MMR)(3)利用利用MMR进行文档进行文档重定序重定序的一种计算方法的一种计算方法1.用其他常用IR方法取得前K个文档记 Dr=IR(C,Q,K)2.选max sim(di Dr,Q)作为第一个文档,即让Ranked=,(用这记号表示有序集合)3.Let Dr=Drdi,从中去掉这个元素4.While Dr is not empty,do:a.Find di with max MMR
14、(Q,Dr,Ranked)b.Let Ranked=Ranked di,(后续追加操作)c.Let Dr=Drdi25MMR Ranking vs Standard IRquerydocumentsMMRIR controls spiral curl26Maximal Marginal Relevance(MMR)(4)应用:应用:对从IR引擎中获得的文档重新定序 在自动生成综述(summary)的应用中对要包含的片段(passage)的定序。一篇文章可能有近似的句子或段落,但综述中不宜有。27文档综述简要综述(综述(summarization)的类型)的类型任务服务于查询系统(focused
15、)和查询无关(generic)提示性综述indicative,用于过滤(这文章我还需要读吗?)对搜索引擎的结果进行过滤简短摘要abstract内容性综述contentful,用于代替阅读全文帮助那些很忙的人全面综述executive summary28Document Summarization in a Nutshell(2)其他方向其他方向 单篇文章还是多篇文章?不同体裁的自适应,还是一种统一的规格?一种语言还是跨语言?线性综述还是超链结构?仅文本还是多媒体?.29以片段提取为基础的综述(1)查询驱动的综述:查询驱动的综述:1.将文档分成片段e.g,sentences,paragraphs,FAQ-pairs,.2.用查询来提取最相关的片段,或者考虑 MMR来避免冗余。3.将提取的片段装配成综述。30Summarization as Passage Retrieval(2)一般性综述一般性综述1.用标题或者最高Tf-IDF的几个词项作为查询。2.参照查询驱动的方法继续。31Summarization as Passage Retrieval(3)多文档的综述多文档的综述1.将文档聚类为内容相关的组2.对于每一组,将文档分成片段,并记住每个片段的来源文档3.利用MMR提取最相关,非冗余的片段(对多文档的情况,MMR特别有必要)4.对每一个聚类组装配一个综述