《基于聚类分析的潜在语义文献检索研究生学位论文.doc》由会员分享,可在线阅读,更多相关《基于聚类分析的潜在语义文献检索研究生学位论文.doc(59页珍藏版)》请在优知文库上搜索。
1、研 究 生 学 位 论 文 基于聚类分析的潜在语义文献检索申请学位级别 理学硕士 专 业 应用数学 LATENT SEMANTIC RETRIEVAL BASEDON DOCUMENT CLUSTERING ANALYSIS学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于1保密,在 年解密后适用本授权书;2不保密,使用本授权书。(请在以上方框内打“”)学位
2、论文作者签名: 指导老师签名:日期: 日期:硕士学位论文主要工作(贡献)声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。本人在学位论文中所做的主要创新点如下:1. 词频矩阵的建立。利用从查询关键词出发,获取相关文献,同时从相关文献中获取高质量扩展关键词,不断迭代搜索,获得更多的链式文献以及扩展关键词汇,建立词频矩阵。这步仅解决因数据更新造成词频矩阵更换不便等问题,也
3、能够不借用所有原始数据库进行语义分解,提高检索效率2.在奇异值降维分解中,对截取矩阵的选择。用变化率:来替代 。 3.采用均值聚类方法,在计算相似度时不用欧式距离,改用余弦相似度原模型: 改进后: 学位论文作者签名: 日 期:毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意
4、。作 者 签 名: 日 期: 指导教师签名: 日期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的
5、个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日指导教师评阅书指导教师评价:一、撰写(设计)过程1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 及格 不及格
6、2、学生掌握专业知识、技能的扎实程度 优 良 中 及格 不及格3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 及格 不及格4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 及格 不及格5、完成毕业论文(设计)期间的出勤情况 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意?
7、优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)指导教师: (签名) 单位: (盖章)年 月 日评阅教师评阅书评阅教师评价:一、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格二、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平
8、 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)评阅教师: (签名) 单位: (盖章)年 月 日硕士研究生学位论文 第VI页教研室(或答辩小组)及教学系意见教研室(或答辩小组)评价:一、答辩过程1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 及格 不及格2、对答辩问题的反应、理解、表达情况 优 良 中 及格 不及格3、学生答辩过程中的精神状态 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文
9、(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格评定成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)教研室主任(或答辩小组组长): (签名)年 月 日教学系意见:系主任: (签名)年 月 日摘 要传统文献检索算法将用户提问关键词与系统数据库存文献关键词集进行匹配,然后根据匹配程度的大小检测文献。实践证明,此方法存在一些不足。其一,词语具有多义性,很难确定文献中该关键词表达的具体含义是否符合检索内容。其二,多词一意
10、,即文章的主题可以由不同关键词构成。因此, 严格匹配可能会丢失大量相关文献。鉴于以上问题,LSA即语义分析法(Latent Semantic Analysis)在相似文献的检索中能取得较好的效果。LSA认为文献由关键词集通过某种结构联系起来。大量关键词的集合可以表示文献主题。LSA基于数学理论和计算机技术的结合,通过大量文献集的词频分析,建立关于关键词和文献的词汇-文献矩阵。然后通过奇异值分解,最终分解成词汇矩阵,起连接作用的对角矩阵,以及文献矩阵的乘积。因此,即使查询词关键词不在文献关键词集内,只要其主要内容和文献一致,也可以通过与语义分解后的文献向量进行相似度运算,进而检索出相关文献。本文
11、在研究LSA产生背景以及基本原理及应用的基础上,着重讨论了从查询关键词出发,对相关文献链建立的方法。文献关系链的建立依赖于相同关键词在不同文献中出现的频率。显然两篇不同文献中相同的关键词越多,这两篇文献就越具有相关性。通过寻找相关文献,对文献中的众多关键词取并集,进而获得更多的关键词,即所谓扩展关键词。对在不同文献中出现频率大的扩展关键词取交集,获得1级高质量关键词。然后通过一级高质量关键词不停地做循环搜索,进而获得2级,3级,n级扩展关键词集,以及更多的相似文献集。根据扩展关键词集以及文献集建立词汇-文献矩阵,并将其进行奇异值分解,分解成三个矩阵的乘积,其中中间的矩阵为对角阵,对角元素按照奇
12、异值由大到小的顺序排列,其值反映了对原矩阵作用的大小。按照奇异值变化率选定某链接关系度阈值,并依据阈值对分解后的三个矩阵进行截取降维处理。然后对降维后的文献矩阵中的列向量进行k均值聚类,形成k类的文献列向量簇,以及k个簇类中心点。根据用户偏好,选取扩展关键词作为查询词集,并将其对k个聚类中心点做相似运算。选择相似度高的簇内中心点,并对其内文献向量进行同样相似运算,最终依据相似程度输出文献。 关键词:潜在语义分析 聚类分析 降维 奇异值分解 文献链AbstractThe traditional document retrieval is based on keywords matching based strictly, to the user qu