《2024年大数据挖掘分析专业考试题库(含答案).docx》由会员分享,可在线阅读,更多相关《2024年大数据挖掘分析专业考试题库(含答案).docx(97页珍藏版)》请在优知文库上搜索。
1、2024年大数据挖掘分析专业考试题库(含答案)一、单选题1 .个人信息的收集、处理和利用应当遵循()的原则,不得违反法律、法规的规定和双方的约定收集、处理和利用个人信息Q0A、正规、合法、必要B、合法、正当、必要C、合法、合规、正当D、合法、合理、合规参考答案:B2 .Tableau能够对数据进行处理包括()。A、将多个数据源数据拼接为一个宽表;B、修改、删除、新增数据行;C、对数据进行行列转换、重命名、格式修改;D、对数据进行计算、合并生成新的数据列参考答案:A3 .()是数据仓库体系架构的重要组成部分,具备数据仓库的部分特征和OLTP系统的部分特征。A、E.SB;B、D.MC、ODSD、E
2、.TL参考答案:C4 .RFM方法中的F说明客户的()A、兴趣度B、粘性C、当前价值D、未来价值参考答案:A5 .关于主成分数目的选取,正确的是()A、保留多少个主成分取决于累计方差在方差总和中所占百分比B、一般选择50%以上C、选择前两个就可以D、选择的数目和变量的个数一致参考答案:A6 .下列关于数据重组的说法中,错误的是()A、数据重组是数据的重新生产和重新采集B、数据重组能够使数据焕发新的光芒C、数据重组实现的关键在于多源数据融合和数据集成D、数据重组有利于实现新颖的数据模式创新参考答案:A7 .在SQL中,创建数据库用的命令是()a、Createschemab、 Createtabl
3、ec、 creteviewd、 Createdatabase参考答案:D8 .当时间序列数据点的一阶差分近似为一常数,可配合以下哪种预测模型()A、直线B、二次抛物线C、三次抛物线D、指数曲线参考答案:A9 .对于企业来说,数据使用的关键是()A、数据收集B、数据存储C、数据分析D、数据再利用参考答案:D10 .线性回归算法寻找()与预测目标之间的线性关系。A、属性B、根因C、表象参考答案:A11 .下面不属于明细数据质量评价指标的是()。A、接入率;B、自动采集率C、及时率D、完整率参考答案:B12 .以下哪些分类方法可以较好地避免样本的不平衡问题?()A、KNNB、SVMC、BayesD、
4、神经网络参考答案:A13.()算法是最广泛使用的聚类算法,算法简单,易于理解和操作。A、gglomerativeB、C.UREC、KmeansD、k-中心点算法参考答案:C14贝叶斯决策是根据()进行决策的一种方法。A、极大似然概率B、先验概率C、边际概率D、后验概率参考答案:D15 .回归分析的第一步是()A、确定解释量和被解释变量B、确定回归模型C、建立回归方程D、进行检验参考答案:A16 .当所有观测值都落在回归直线上,则这两个变量之间的相关系数为()A、1B、-1C、+1或TD、O参考答案:C17 .()是进行项目投资效益评价的最终依据。A、现金流量B、盈亏平衡点C、净现金流量D、现金
5、流入量参考答案:C18 .被广泛用于购物篮分析的是()。A、关联分析;B、分类和预测C、聚类分析D、演变分析参考答案:A19 .下面哪种不属于数据预处理的方法?()A、变量代换B、离散化C、聚集D、估计遗漏值参考答案:D20 .下列不属于关联分析的关键要素的是()A、支持度B、置信度、酒息度D、提升度参考答案:C2LNoSQL含义是指()A、 NO!SQL;B、 NomberSQL;C、 NotOnlySQLD、N0LLSQL参考答案:C22 .资金的时间价值是()A、同一资金在同一时点上价值量的差额B、同一资金在不同时点上价值量的差额C、不同资金在同一时点上价值量的差额D、不同资金在不同时点
6、上价值量的差额参考答案:B23 .以下哪种方法不属于于监督学习模型()A、决策树B、线性回归C、关联分析D、判别分析参考答案:C24 .在多元回归模型的检验中,目的是检验每一个自变量与因变量在指定显著性水平上是否存在线性相关关系的检验是()A、r检验B、t检验C、f检验D、DW检验参考答案:B25 .关于混合模型聚类算法的优缺点,下面说法正确的是()A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。B、混合模型比K均值或模糊C均值更一般,因为它可以使用各种类型的分布。C、混合模型很难发现不同大小和椭球形状的簇。D、混合模型在有噪声和离群点时不会存在问题。参考答案:B26
7、 .大数据背景下,数据支撑业务的目的是()A、建立数据科学B、完成数据应用C、配备数据硬件D、吸纳数据人才参考答案:B27 .下面关于因子分析的说法正确的是()A、因子分析就是主成分分析B、因子之间可相关也可不相关C、因子受量纲的影响D、可以对因子进行旋转,使其意义更明显参考答案:D28 .快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析的是()0A、Map;B、ReduceC、H.iveD、SQL语句参考答案:D29 .企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是()A、数据越多越好B、尽可能多的适合的数据C、数据
8、越少越好D、以上三条都不正确参考答案:B30 .以下哪个类型的变量在作预测客户流失的模型中最有解释力度?A、人口基本数据,比如年龄和性别B、基本社会状态数据,比如收入和职业C、业务数据,比如消费频次D、业务数据的衍生变量,比如最近3个月消费频次的变化情况参考答案:D3L将复杂的地址简化成北、中、南、东四区,是在进行?A、数据正规化B、数据一般化C、数据离散化D、数据整合参考答案:B32.Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用()语言实现开源软件框架。A、 javaB、C、 +C、R语言参考答案:A33 .大数据特征错误的是()。A、容量大;B、类型多C、价
9、值高D、系统多参考答案:D34 .Apriori算法是最基本的一种关联规则算法,它采用布尔关联规则的挖掘频繁项集的算法,利用()搜索的方法挖掘频繁项集。A、逐层B、逐级C、自底向上D、自上而下参考答案:A35 .分类算法以()定理为基础,采用概率方法对数据进行建模A、决策树B、K-最邻近C、SVMD、贝叶斯参考答案:D36 .自然界中某种事物发生时其他事物也会发生,则这种联系称之为OoA、连接B、联络C、关联D、联系参考答案:C37 .源业务系统接入数据中心的方式主要有:JDBCESB和()。A、D.XP;B、E.SPC、OGGD、E.TL参考答案:C38 .下列哪个不属于个人信息影响评估原则
10、()A、个人信息的处理目的、处理方式等是否合法、正当、必要B、对个人的影响及风险程度C、谁主管谁负责D、所采取的安全保护措施是否合法、有效并与风险程度相适应。参考答案:C39 .以下哪项关于决策树的说法是错误的OA、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题参考答案:C40 .Hadoop框架中两大核心是:()和MapReducEA、H.CFS;B、H.DFSC、H.EFSD、H.FFS参考答案:B41 .将数据转换为可视化的形式,便于直观快速发现数据规律。的数据探索方法是()。A、汇总统计法B、
11、概率统计法C、可视化法参考答案:C42 .矩估计的基本原理是()A、用样本矩估计总体矩B、使得似然函数达到最大C、使得似然函数达到最小D、小概率事件在一次试验中是不可能发生的参考答案:A43 .数据预处理目前常用的异常数据识别方法包括业务判别法、()、箱线图判别法、统计判别法A、聚类判别法;B、回归判别法C、抽样判别法参考答案:A44 .算法的核心思想是()逐层构造一个树QA、自上而下B、自下而上C、自左向右D、自右向左参考答案:A45 .下列关于大数据的分析理念的说法中,错误的是()A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究
12、效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据参考答案:D46 .什么是KDD?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现参考答案:A47 .某家长为了使孩子在第3-6年上大学的4年中,每年年初得到100OO元助学基金,他应在2年前在银行存入多少钱?(年利率按5%计算)()A、 33771B、 30291C、 32163D、 45256参考答案:A48 .关于K均值和DBSCAN的比较,以下说法不正确的是()。A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C、K均
13、值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇参考答案:A49 .SQL查询语句中HAVING子句的作用是()A、指出分组查询的范围B、指出分组查询的值C、指出分组查询的条件D、指出分组查询的内容参考答案:C50 .一组数据中出现次数最多的数据称为()。A、分位数B、中位数C、众数参考答案:C51 .JSON中的中括号一般来表示()。A、数组;B、标点符号C、对象D、注释参考答案:C52 .模型构建指基于()数据构建数据挖掘模型。A、线上B、线下C、实时D、历史53 .T
14、ableau在处理离线地图时,需要将标记设置为()。A、路径;B、区域C、边形D、已填充地图参考答案:A54 .以下关于人工神经网络(ANN)的描述错误的有()A、神经网络对训练数据中的噪声非常鲁棒B、可以处理冗余特征C、训练ANN是一个很耗时的过程D、至少含有一个隐藏层的多层神经网络参考答案:A55 .美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据参考答案:B56 .当时间序列的环比增长速度大体相同时,适宜拟合()A、指数曲线B、抛物线C、直线D、对数曲线参考答案:A57 .将多个指标转化为少数几个指标的一种统计分析方法是()。A、数据预处理;B、数据降维C、主成分分析