大数据时代下的数据挖掘试题及答案.docx

上传人:王** 文档编号:885413 上传时间:2024-02-21 格式:DOCX 页数:27 大小:104.63KB
下载 相关 举报
大数据时代下的数据挖掘试题及答案.docx_第1页
第1页 / 共27页
大数据时代下的数据挖掘试题及答案.docx_第2页
第2页 / 共27页
大数据时代下的数据挖掘试题及答案.docx_第3页
第3页 / 共27页
大数据时代下的数据挖掘试题及答案.docx_第4页
第4页 / 共27页
大数据时代下的数据挖掘试题及答案.docx_第5页
第5页 / 共27页
大数据时代下的数据挖掘试题及答案.docx_第6页
第6页 / 共27页
大数据时代下的数据挖掘试题及答案.docx_第7页
第7页 / 共27页
大数据时代下的数据挖掘试题及答案.docx_第8页
第8页 / 共27页
大数据时代下的数据挖掘试题及答案.docx_第9页
第9页 / 共27页
大数据时代下的数据挖掘试题及答案.docx_第10页
第10页 / 共27页
亲,该文档总共27页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大数据时代下的数据挖掘试题及答案.docx》由会员分享,可在线阅读,更多相关《大数据时代下的数据挖掘试题及答案.docx(27页珍藏版)》请在优知文库上搜索。

1、?海量数据挖掘技术及工程实践?题目一、单项选择题(共80题)1)(D)的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果.A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购置尿布,这种属于数据挖掘的哪类问题(八)3) A.关联规那么发现B.聚类4) C,分类D.自然语言处理5)以下两种描述分别对应哪两种对分类算法的评价标准(八)6) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准.7) (b)描述有多少比例的小偷给警察抓了的标准.8) A.Precision,RecallB.Recall

2、,Precision9) A.PrecisionzROCD.RecaIIzROC10)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务(C)11)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘12)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相别离(B)13)A.分类B.聚类C.关联分析D.隐马尔可夫链14)建立一个模型,通过这个模型根据的变量值来预测其他某个变量值属于数据挖掘的哪一类任务(C)15) A.根据内容检索B.建模描述16) C.预测建模D.寻找模式和规那么17)下面哪种不属于数据预处理的方法(D)18)A.变量代换B

3、.离散化C.聚集D估计遗漏值19)假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱.等频(等深)划分时,15在第几个箱子内(B)20)A.第一个B.第二个C第三个D.第四个21)下面哪个不属于数据的属性类型:(D)22)A标称B.序数C.区间口相异23)只有非零值才重要的二元属性被称作:(C)24)A.计数属性B.离散属性C.非对称的二元属性D.对称属性25)以下哪种方法不属于特征选择的标准方法:(D)26)八.嵌入B.过滤C.包装口抽样27)下面不属于创立新属性的相关方法的是:(B)28)A.特征

4、提取B.特征修改C.映射数据到新的空间D.特征构造29)下面哪个属于映射数据到新的空间的方法(八)30)A.傅立叶变换B.特征加权C.渐进抽样D.维归约31)假设属性income的最大最小值分别是12000元和98000元.利用最大最小标准化的方法将属性的值映射到0至1的范围内.对属性income的73600元将被转化为:(D)32)33)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人.那么年级属性的众数是:(八)34)A.一年级B.二年级C三年级D.四年级35)以下哪个不是专门用于可视化时间空间数据的技术:(B)B.饼图36)A.等图线图C.曲面

5、图D.矢量场图37)在抽样方法中,当适宜的样本容量很难确定时,可以使用的抽样方法是:(D)38)A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D渐进抽样39)数据仓库是随着时间变化的,下面的描述不正确的选项是(C)40) A.数据仓库随时间的变化不断增加新的数据内容41) B.捕捉到的新数据会覆盖原来的快照42) C.数据仓库随事件变化不断删去旧的数据内容43) D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合44)下面关于数据粒度的描述不正确的选项是:(C)45) A.粒度是指数据仓库小数据单元的详细程度和级别46) B.数据越详细,粒度就越小,

6、级别也就越高47) C.数据综合度越高,粒度也就越大,级别也就越高48) D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量49)有关数据仓库的开发特点,不正确的描述是:(八)50) A.数据仓库开发要从数据出发51) B.数据仓库使用的需求在开发出去就要明确52) C.数据仓库的开发是一个不断循环的过程,是启发式的开发53) D.在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式54)关于OLAP的特性,下面正确的选项是:(D)55) (1)快速性(2)可分析性多维性信息性共享性56) A.(2)57) B.(2)58)

7、C.59) D.(2)60)关于OLAP和OLTP的区别描述,不正确的选项是:(C)61)主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同62)B.与OLAP应用程序不同QLTP应用程序包含大量相对简单的事务63)的特点在于事务量大,但事务内容比拟简单且重复率高64)是以数据仓库为根底的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的65)关于OLAP和OLTP的说法,以下不正确的选项是:CA)66)事务量大,但事务内容比拟简单且重复率高67)的最终数据来源与OLTP不一样68)面对的是决策人员和高层治理人员69)以应用为核心,是应用驱动的70)设

8、X=l,2,3是频繁项集,那么可由X产生(C)个关联规那么.71)72)考虑下面的频繁3项集的集合:123,124,L2,5,L3,4,L3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含(C)73),2,3,4,2,3,5,2,4,5,3,4,574)下面选项中t不是S的子序列的是(C)75)=t=76)=t=77)=t=78)=t=79)在图集合中发现一组公共子结构,这样的任务称为(B)80)A.频繁子集挖掘B.频繁子图挖掘C.频繁数据项挖掘D.频繁模式挖掘81)以下度量不具有反演性的是(D)82)A.系数B.几率度量D.兴趣因

9、子83)以下(A)不是将主观信息参加到模式发现任务中的方法.84) A.与同一时期其他数据比照85) B.可视化86) C.基于模板的方法87) D.主观兴趣度量88)下面购物蓝能够提取的3项集的最大数量是多少(C)TID项集1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干89)以下哪些算法是分类算法(B)90)以下哪些分类方法可以较好地防止样本的不平衡问题(八)D.神经网络91)决策树中不包含一下哪种结点(C)A.根结点(rootnode)B.内部结点(int

10、ernalnode)C.外部结点(externalnode)D.叶结点(IeafnOde)92)以下哪项关于决策树的说法是错误的(C)A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复屡次C.决策树算法对于噪声的干扰非常敏感D.寻找最正确决策树是NP完全问题93)在基于规那么分类器的中,依据规那么质量的某种度量对规那么排序,保证每一个测试记录都是由覆盖它的“最好的规格来分类,这种方案称为(B)94) A.基于类的排序方案95) B.基于规那么的排序方案96) C.基于度量的排序方案97) D.基于规格的排序方案.98)以下哪些算法是基于规那么的分类器(八)99)A.B.K

11、NNC.NaiveBayesD.ANN100)可用作数据挖掘分析中的关联规那么算法有(C).101) A.决策树、对数回归、关联模式B. K均值法、SOM神经网络C. APriori算法、FP-Tree算法D. RBF神经网络、K均值法、决策树102)如果对属性值的任一组合,R中都存在一条规那么加以覆盖,那么称规那么集R中的规那么为(B)A.无序规那么B.穷举规那么C.互斥规那么D.有序规那么103)用于分类与回归应用的主要算法有:(D)算法、HotSPot算法神经网络、K均值法、决策树均值法、SOM神经网络D.决策树、BP神经网络、贝叶斯40)如果允许一条记录触发多条分类规那么,把每条被触发

12、规那么的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(八)A.无序规那么B.穷举规那么C.互斥规那么D.有序规那么41)考虑两队之间的足球比赛:队0和队1.假设65%的比赛队0胜出,剩余的比赛队1获胜.队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜.如果下一场比赛在队1的主场进行队1获胜的概率为(C)以下关于人工神经网络(ANN)的描述错误的有(八)A.神经网络对练习数据中的噪声非常鲁棒B.可以处理冗余特征C.练习ANN是一个很耗时的过程D,至少含有一个隐藏层的多层神经网络43)通过聚集多个分类器的预测来提升分类准确率的技术称为(八)A.组合(

13、ensemble)B.聚集(aggregate)C.合并(combination)D.投票(voting)44)简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作(B)A.层次聚类B.划分聚类C.非互斥聚类D.模糊聚类45)在根本K均值算法里,当邻近度函数采用(八)的时候,适宜的质心是簇中各点的中位数.A.曼哈顿距离8.平方欧几里德距离C.余弦距离散度46) (C)是一个观测值,它与其他观测值的差异如此之大,以至于疑心它是由不同的机制产生的.A.边界点8.质心C.离群点口.核心点47) BIRCH是种(B).A.分类器B.聚类算法C.关联分析算法D.特征选择

14、算法48)检测一元正态分布中的离群点,属于异常检测中的基于(AJ的离群点检测.A.统计方法B.邻近度C.密度D.聚类技术49)(C)将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术.(单链)(全链)方法组平均50)(D)将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术.【单链)(全链)C组平均方法51) 以下算法中,不属于外推法的是(B).A.移动平均法B.回归分析法C.指数平滑法D.季节指数法52) 关联规那么的评价指标是:(C).A.均方误差、均方根误差8. KaPPa统计、显着性检验C.支持度、置信度D.平均绝对误差、相对误差53)关于K均值和DBSCAN的比拟,以下说法不正确的选项是(八).均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象.均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念.均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇.均值可以发现不是明显别离的簇,即便簇有重叠也可以发现,但是DBSCA

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 数据结构与算法

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!