《基于大数据挖掘技术及工程实践》试题及答案24.docx

资源描述

《《基于大数据挖掘技术及工程实践》试题及答案24.docx》由会员分享，可在线阅读，更多相关《《基于大数据挖掘技术及工程实践》试题及答案24.docx（24页珍藏版）》请在优知文库上搜索。

1、海量数据挖掘技术及工程实践题目一、单项选择咫（共80题）D（D）的目的缩小数据的取值葩用，使其更适合于数据挖掘算法的需要，并I1.能够得到和原始数据相同的分析结果。.数据清洗B.数据集成C.数据变换D.数据归约2）某超市研窕销格纪录数据后发现，买啤酒的人很大概率也会购置尿布，这种属下数据挖掘的哪类问题？（八）A.关联规则发现B.聚类C.分类D.自然语言处理3）以卜两种描述分别对应哪两种对分类算法的评价标准？（八）（八）警察抓小偷，描述警察抓的人中有多少个是小偷的标准.（b）描述有多少比例的小偷给警察抓了的标准。.Precision,Reca1.1.B.Reca1.1.,PrecisionA.P

2、recision,ROCI）.Reca1.1.,ROC4）将原始数据进行集成、变换、维度规约、数值规约是在以卜项个步骤的任务？（C）A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘5）当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相别离？.分类B.聚类C.关联分析D.隐马尔可夫链6）建立一个模型，通过这个模型根据的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？（C）A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则7）卜面哪种不属于数据预处理的方法？（D）A.变员代换B.离散化C.聚集D.估计遗漏值8）假设12个销售价格记录组已经排序如下

3、:5,10,11,13,15,35,50,55,72,92,204,215使用如卜每种方法将它们划分成四个箱。等频（等深划分时，15在第几个箱子内？（B）A.第一个B.第二个。.第三个D.笫四个9）卜面哪个不属于数据的属性类型：（D）A.标称B.序数C区间D.相异10）只有非零值才重要的二元属性被称作：（C）A.计数属性B.离散属性C.非对称的二元属性D.对称属性11）以下哪种方法不属于特征选择的标准方法：（D）A.嵌入B.过渡C.包装D,抽样12）下面不属r创立新属性的相关方法的是：（B）.特征提取B.特征修改C.映射数据到新的空间D.特征构造13）下面哪个属下映射数据到新的空间的方法？（八

4、）A.傅立叶变换B,特征加权C.渐进抽样D.维归约14）假设属性income的最大/小值分别是12000元和98000元。利用最大最小标准化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：（D）A.0.821B.1.224C.1.458D.0.71615）所大学内的各年纪人数分别为：年级200人，二年级160人，三年级130人,四年级110人“则年级属性的众数是：（八）A. 一年级B.二年级C.三年级D.四年级16）以下哪个不是专门用于可视化时间空间数据的技术：（B）A.等高线图B.饼图C.曲面图D.矢信场图17）在抽样方法中，当适宜的样本容量很难确定时，可

5、以使用的抽样方法是：（D）A.有放回的简单随机抽样B.无放回的简总随机抽样C.分层抽样I)渐进抽样18)数据仓库是随着时间变化的，卜.面的描述不正确的选项是(C).数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容【).数据仓库中包含大量的综合数据,这些综合数据会随若时间的变化不断地进行重新综合19)下面关于数据粒度的描述不正确的选项是：(C).粒度是指数据仓库小数据单元的详细程度和级别B.数据越详细,粒度就越小,级别也就越高C.数据综合度越高,粒度也就越大,级别也就越高【).粒度的具体划分将直接影响数据仓库中的数据量以及查询质

6、量20)有关数据仓库的开发特点，不正确的描述是：（八）A.数据仓库开发要从数据出发B.数据仓库使用的需求在开发出去就要明确C数据仓库的开发是一个不断循环的过程,是启发式的开发D.在数据仓库环境中，并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式21)关于O1.AP的特性，卜面正确的选项是：(D)快速性可分析性多维性信息性(5)共享性.(1)(2)(3)B. (2)(3)(4)C. (1)(2)(3)(4)D. (1)(2)(3)(4)(5)22)关于O1.AP和O1.TP的区别描述,不正确的选项是：(C).O1.AP主要是关于如何理解聚集的大量不同

7、的数据.它与OTAP应用程序不同B.与O1.AP应用程序不同,O1.TP应用程序包含大量相对简单的事务C.O1.AP的特点在于事务量大,但事务内容比较简单且重复率高I).O1.AP是以数据仓库为基础的,但其最终数据来源与O1.TP一样均来自底层的数据库系统,两者面对的用户是相同的23）关于O1.AP和O1.TP的说法，以卜不正确的选项是:（）A. O1.AP事务员大,但事务内容比较简单且重亚率高B. O1.AP的最终数据来源与O1.TP不一样C. O1.TP面对的是决策人员和高层管理人员D. O1.TP以应用为核心,是应用驱动的24）设X=1.,2,3）是频繁期集，则可由X产生（C）个关联规则

8、。A.4B.5C.6D.725）考虑下面的频繁3-项集的集合：1,2,3,1,2,4,1,2,5,1,3,4,（1,3,5,2,3,4J2,3,5,3,%5假定数据集中只有5个项,采用合并策略，由候选产生过程得到4-项集不包含（C）A,1,2,3,4B,1,2,3,5C.1,2,4,5D.1,3,4,526）下面选项中t不是s的子序列的是（C）A. s=t=B. s=t=C. s=t=D.s=t=27）在图集合中发现一组公共子结构,这样的任务称为（B）A.频繁子集挖掘B,频繁子图挖掘C.频繁数据项挖掘D.频繁模武挖掘28）以下度量不具有反演性的是（D）A.系数B.儿率CCohcn度垃D.兴趣因

9、子29）以下（A）不是将主观信息参加到模式发现任务中的方法。A.与同一时期其他数据比照B.可视化C.基于模板的方法D.主观兴趣度是30）下面购物蓝能够提取的3-项集的最大数量是多少（C）项集T1.D1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布，面包,黄油10啤酒,饼干A. 1B.2C.3D.431）以下哪些算法是分类算法（B）A.DBSCANB.C4.5C.K-MeanD.EM32）以卜.哪些分类方法可以较好地防止样本的不平衡问题（八）A.KNNB.SVMC.BayesD.神经网络3

10、3）决策树中不包含一下哪种结点（C）A.根结点（rootnode）B.内部结点（interna1.node）C.外部结点（externa1.node）D.叶结点（1.eafnode）34）以下哪项关于决策树的说法是错误的（C）,冗余属性不会对决策树的准确率造成不利的影晌B.子树可能在决策树中重纪屡次C.决策树算法对于噪声的干扰非常极感D.寻找最正确决策树是NP完全问题35）在基于规则分类器的中，依据规则质发的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为（B）A.基于类的排序方案B.基丁规则的排序方案C.基于度量的排序方案D.基于规格的排序方案。36）以

11、下哪些算法是基于规则的分类器（八）.C4.5B.KNNC.NaiveBayesD.ANN37）可用作数据挖掘分析中的关联规则竟法有（C）tA决策树、对数回归、关联模式B. K均值法、SOM神经网络C. Apriori算法、FP-Troe算法D. RBF神经网络、K均值法、决策树38）如果对果性值的任组合,R中都存在条规则加以覆盖,则称规则集R中的规则为（B）R.无序规则反穷举规则C.互斥规则D.有序规则39）用于分类与回归应用的主要算法有：（D）A. Apriori算法、HotSPOt算法B. RBF神经网络、K均值法、决策树C. K均值法、SOM神经网络D.决策树、BP神经网络、贝叶斯40）

12、如果允许一条记录触发多条分类规则,把银条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为（八）A.无序规则B.穷举规则C.互斥规则D.有序规则41）考虑两队之间的足球比赛：队0和队1。假设65%的比赛队0胜出，剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队I取胜的比赛中75%是主场我胜.如果下一场比赛在队1的主场进行队I获胜的概率为（C）A.0.75B.0.35C.0.4678D.0.573842）以下关乎人工神经网络（ANN）的描述错误的有（八）.神经网络对训练数据中的噪声非常鲁棒B可以处理冗余特征C.训练ANN是一个很耗时的过程D.至少含有一

13、个隐域层的多层神经网络43）通过聚集多个分类器的预测来提高分类准确率的技术称为（八）.组合（ensemb1.e）B.聚集Sggrega1.e）C.合井(CoInbination)D.投票(VOting)44）简堆地将数据对象集划分成不重心的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作（B）A层次聚类B划分聚类C.非互斥聚类D,模糊聚类45）在根本K均值算法里,当邻近度函数采用（A）的时候,适宜的历心是震中各点的中位数.变哈顿距离B.平方欧儿里德距高C.余弦距离D.Bregman散度46）（C）是一个观测值,它与其他观测值的差异如此之大，以至丁疑心它是由不同的机制产生的.A.边界点B

14、.旗心C.离群点D.核心点47） BIReH是一种（B）,A.分类潺B.聚类算法C.关联分析算法D.特征选择尊法48）检测一元正态分布中的离群点,屈于异常检测中的基于（A）的离群点检测。A.统计方法B.邻近度C.密度D.聚类技术49）（C）将两个簇的邻近度定义为不同旗的所有点对的平均逐对邻近度，它是一种凝聚层次聚类技术。A.MIN（单链）B.MAX（全链）C.组平均DJard方法50）（D）将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚乂次聚类技术。AMIN（单链）B.MAX（全链）C.组平均DZard方法51）以卜律法中，不属于外推法的是（B）.A.移动平均法B.回归分析法C.指数平滑法D.季节指数法52）关联规则的评价指标是：（C）。A.均方误差、均方根误差B. KaPPa统计、显著性检验C.支持度、取信度D,平均绝对误差、相对误差53）关于K均值和DBSCAN的比较，以下说法不正确的选项是（A1.K均值丢弃被它识别为噪声的时象,而DBSCAN-一般聚类所有对缴。B.

展开阅读全文