《复习题 - Shandong University.docx》由会员分享,可在线阅读,更多相关《复习题 - Shandong University.docx(2页珍藏版)》请在优知文库上搜索。
1、1) Web搜索引擎一般有哪3个部分组成(Web网页收集,中间的索引处理和对用户查询的检索排序),能叙述各自的主要功能。2)信息检索系统的数学模型是怎么描述的,能给出数学模型中的参数的含义说明?3)信息检索的两种不同检索形式及含义:特别(adhocretrieval)检索,用户可以不断地提出新的检索需求或新组合,检索系统中的文献不变;-Google9Baidu,.过滤(filtering):用户的检索需求描述是固定不变的,当得到新的文档后,把与用户需求相关的文档留下,并分类和排序后提交给用户。-股票,新闻,天气,航班4)简述向量空间模型(VSM),其中包括文挡的向量表示方式,tf,idf的含义
2、(看课件),以及如何计算向量之间的相似度的方法。这种方法的优缺点是什么?当维数比较大时,利用隐性语义索引模型降维的方法是什么?其数学原理是什么?(见课件)5)因为字符串操作是信息检索的关键性计算,能掌握常用的对字符串处理的算法,包括字符串A.B的编辑距离、A在B出现位置的精确匹配的定义和算法,k-近似匹配的定义和算法,以及求A,B之间的最大公共子串的定义和算法。6)能给出信息检索中常用的测度,如查全率、查准率和Fl计算公式。知道11个标准查准率是如何规定的,查准率直方图、E测度指标的含义是什么?面向用户的测试集合及信息检索系统的性能是如何确定的?对目前常用的MRR,NDCG的测度又是怎样定义的
3、?它们考虑的评测要点是什么?7)知道中文分词的简单方法,ngram等术语。8)能写出Web爬虫(CraWIer)的深度、广度优先对网页的算法。9)能给出GOogIePageRank算法和HrrS算法的思想,其中包括基本概念和计算公式。10)给出Trie的定义,并能根据给定的文档集合,画出相应的Trie,以及如何利用Trie计算If值;能给出Trie上的搜索算法。11)给出利用倒排文档建立文档索引方法的原理性说明和举例说明。12)能叙述对HTML网页预处理(模板和DOM树)中几种抽取主要文本的方法和中文分词(基于词典的最长匹配)的方法。13)能简述常见的2种以上对文本的分类算法,能给出聚类和分类
4、的主要的异同点是什么?能说出K-NN,SVM,概率和决策树的分类算法以及对分类算法的评测方法是什么。14)能给出对文本的K-means和c-means聚类算法,能说明为什么K-means算法的初值的选取对算法聚类结果又较大的影响。知道层次聚类算法大体有哪两类,并能举例说明其中有代表性的算法,知道AgglomerativeClusteringAlgorithm的一般算法框架是什么以及计算两个簇之间距离的方法。能给出由上而下(DiViSiVe)算法中有代表性的方法,如最小生成树。知道评价聚类的测度(如SSE)和具体的计算公式。知道如何利用相似度矩阵的可视化方法来比较和评价聚类的效果(即说明如何利用
5、色谱在矩阵不同点的显示说明聚类的特点。15)能叙述MST,BASCAN聚类算法的思想和具体算法步骤。16)知道目前基于内容图像检索的4中注意方法(颜色、纹理、形状和空间位置关系),能给出这4种方法中比较适合的应用场景。17)对于基于颜色直方图的表示方法,能简述直方图的计算方法和相似度计算方法。能说明其优点和存在的问题。18)知道如何把用户的反馈引入到计算用户需求与图像之间的相似度计算的及计算公式。19)对基于纹理的方法,知道图像的灰度共现矩阵的定义和计算方法,以及基于共现矩阵中的几个统计量所表示的图像纹理特征。20)能给出Split-and-MergeAlgorithm若得到区域(region)描述,你能否转换成轮廓描述?若可以,请给出具体的算法,并说明轮廓线是如何表示的。