《大数据预处理复习题(附参考答案).docx》由会员分享,可在线阅读,更多相关《大数据预处理复习题(附参考答案).docx(21页珍藏版)》请在优知文库上搜索。
1、大数据预处理复习题(一)单选题1 .下列关于缺失值的形式的说法中,正确的是()0A. PythOn中默认的缺失值形式为NAB. PandaS中默认的缺失值形式为NaNC. PythOn中默认的缺失值形式为NUIlD. PandaS中默认的缺失值形式为空字符串()2 .下列表述中,正确的是()0A.对字符串型变量的缺失值,需要使用众数进行填补。B.对于缺失值,最简单的处理方法是使用均值进行填补。C.完全变量指的包含缺失值的变量。D.在调查过程中,因被调查者拒绝回答敏感问题而造成的数据缺失,属于人为原因。3.关于日期时间型数据,下列说法正确的是()oA.在计算机系统中,日期时间型数据是以文本形式存
2、储的。B.在计算机系统中,日期时间型数据是以数值形式存储的。C.在计算机系统中,日期时间型数据是以因子形式存储的。D.在计算机系统中,日期时间型数据是以缺失值形式存储的。)o4 .下图是某分类变量各类别计数分布的箱线图,从图中可知(A.少部分分类计数很低。B.该变量类别很少,可以清晰的用箱线图展示各类别的频数。C.这个变量存在大量低频分类。D.绝大多数分类计数很高。5 .下列关于数据预处理的表述中,不正确的是()oA.具备专业经验的数据科学家可以在数据分析前忽略数据预处理。B.数据预处理是在数据采集后,分析前这段时间里对数据进行的处理操作。C.数据预处理的效果与数据分析顺利与否直接相关。D.数
3、据预处理往往占据数据分析项目总工作量的60%以上。6.下列数据特征缩放的公式中,正确的是()0A.数据中心化公式为:XscaleaB.数据标准化公式为:Xscaltd=X-XoC.Max-ABS缩放公式为:D.Robust缩放公式为:X1. =Xr37 .下列关于相关系数的表述中,正确的是()oA. Pearson相关系数的值在0,1之间分布。B. SPearman相关系数的值在T,1之间分布。C.变量X和y的SPeannan相关系数的定义为:-J巧力AD.相关系数越大,则说明两个变量的相关性越强。8 .下列关于异常值的表述中,不正确的是()oA.异常值也可以称为离群值。9 .异常值的数值可能
4、是真实可靠的。C.异常值在数据中占得比例很小。D.异常值完全是由于错误形成的数据。10 下列关于哑变量的名称中,不正确的是()0A.二分类变量B.虚拟变量C.0-1型变量D.数值型变量10.下列关于异常值识别方法的表述中,不正确的是()oA.异常值的识别方式是考察变量中每一个样本值与其他样本值的相对距离。B.通过箱线图可以识别异常值。C.可以利用变量的样本均值和样本标准差来识别异常值。D.异常值识别标准中使用了标准差的倍数作为距离大小的度量标准。11.下列表述中,正确的是()0A.含有缺失值的变量必须被剔除。B.数据缺失的原因是该数据不存在。C.数据缺失对于数据建模分析不存在影响。D.随机缺失
5、类型是指数据的缺失仅仅依赖于其它变量。12 .下列关于数据错误的表述中,不正确的是()oA.数据集中所有错误的数据都可以被发现并予以纠正。B.数据自身的逻辑规律可以帮助我们发现一些数据错误。C.类别名称不统一会造成数据错误。D.文字表述不规范会造成数据错误。13 .在大多数箱线图绘图工具中,定义上限值位置和下限值位置分别为()oA. Ql+ISIQR,Q3-1S!QRB. i-l,5?,Q3+1.5IQRC. Q3-13IQR,iL5?D3+15IQR,Qi-ISXIQR14.下列关于数据缺失的表述中,正确的是()oA.缺失值处理的主要手段就是使用最接近的值进行填补。B.只要数据录入人员避免漏
6、录,数据就不会缺失。C.在预处理阶段,遇到数据缺失情况可以忽略,不做处理。D.某个变量的值为0,说明产生了数据缺失。15.下列关于数据预处理环节简化数据的表述中,不正确的是()oA.过多的数据会导致模型训练效率低下。B.初学者进行数据分析时需要简化数据,专业数据分析师不需要简化数据。C.简化数据时,需要保证数据集的信息不过多损失。D.在样本量增加到一定程度后,信息含量趋近于不变。16.下列关于数据中心化的表述中,不正确的是()oA.中心化后,平均值变为0。B.中心化后,标准差发生改变。C.中心化后,极差没有发生改变。D.中心化后,分布形状没有发生改变。17 .下列关于数据归约的意义中,不正确的
7、是()0A.可以降低无效、错误数据对数据建模的影响,提高建模准确性。B.大幅缩减模型的训练时间,在需要反复训练模型的场景下能够极大地提高建模效率。C.可以降低数据存储的空间成本。D.有利于不同量纲数据之间的比较,也避免了自变量的不同量纲对建模的影响。18 .下列关于异常值处理的表述中,不正确的是()oA.异常值可能是准确的数据B.对于数据错误的异常值,可以删除C.删除异常值将改变数据集的样本量D.截断方法改变了样本容量19.下列表述中,正确的是()。A.将连续型变量离散化为定性变量,其数据信息含量会增加。B.等频法属于有监督离散化方法。C.数据离散化是指把无限空间中有限的个体映射到有限的空间中
8、,以此提高算法的时空效率。D.数据离散化是指将连续型变量的部分取值映射到根据客观或主观依据事先确定好的一系列分组或分类中,从而得到另一个连续型变量的数据预处理方法。20.关于哑变量与one-hot码,下列说法正确的是()。A.任何一个Jfc个类别的定性变量都可以转换为k一1个哑变量。B.任何一个上个类别的定性变量都可以转换为k一1个比特的one-hot码。C.哑变量与one-hot码是完全相同的概念。D.哑变量既有两个类别形式的,又有多个类别形式的。21 .下列关于数据缺失类型的表述中,错误的是()0A.在某次调查中,在整理问卷时不小心打翻墨水瓶,导致部分问卷的部分问题污损,这种缺失记为非随机
9、、不可忽略缺失。B.数据缺失的三种类型是完全随机缺失、随机缺失和非随机、不可忽略缺失。C.在某次调查中,某些消费者的“收入”变量发生了缺失,经过分析发现,没有缺失的收入数据大多属于中等收入水平,因而这种缺失属于非随机缺失。D.随机缺失是指数据的缺失仅仅依赖于其它变量,即受本变量以外因素的影响。22 .在大多数箱线图绘图工具中,定义上限值位置和下限值位置分别为)0Q3-1S!QR 3 + 15 IQR Ql + 1.5 IQR Ql - 1,5 IQRA. Ql+IsXlQRB. -1.5?c.Q3-1.5IQRDQ3+L5XQR23 .下列关于低频分类数据的表述中,正确的是()0A.低频分类数
10、据都是由于数据采集是的错误导致的。B.低频分类数据都是真实可靠的,只是其类别的样本频数比较低。C.使用低频分类数据建立模型会使模型更简化,更精确。D.低频分类指在分类型数据中出现一些类别频数非常低的情况。24 .下列对定性变量的描述中,不正确的是()0A.“成绩”可以作为定性变量。B.连续型数据很难转变为定性数据。C.多分类定性变量可以转变为哑变量。D.顺序型变量可以转变成得分变量。25 .下列关于Robust缩放方法的表述中,不正确的是()0A. RobUSt缩放方法的理念是“首先中心化,然后除以尺度二B. Robust缩放方法用到的指标不易受极端值影响。C. Robust缩放方法用中位数代
11、替了标准化方法里的均值指标。D. Robust缩放方法用方差代替了标准化方法里的标准差指标。26 .下列关于变量的数据特征的表述中,正确的是()0A.原始数据的特征往往与分析方法的要求不一致。27 变量的数据特征与测量尺度和采集方式无关。C.两个数值型变量之间可以直接比较大小。D.对数据进行缩放后,数据的分布形状会发生明显变化。)o27.下列关于用方差分析进行变量选择的表述中,不正确的是(A.方差分析是用于检验两组或多组数据之间样本均值的差异是否显著的方法。B.方差分析的检验形式是F检验。C.P值以0.01作为筛选标准时,P值大于0.01的变量需要保留下来。D.某些场合下通过方差分析选择变量,
12、可以改善模型的建模效率和预测精度。28.下列关于分箱法的表述中,不正确的是()0A.使用客观法进行数据离散化是计算机科学领域通常的做法,通常用名词“分箱”称呼这种方法。B.分箱法主要有等宽法(等宽分箱)和等频法(等频分箱)两种形式。C.等宽分箱法一般被称作“分类”D.在统计分析领域,客观法和主观法中都会用到分箱法。29.下列关于异常值处理方法的表述中,正确的是()oA.把异常值替换为某一可以接受的值,这一处理方法是标记法。B.用一个变量将异常值标记出来的方法是截断法。C.采用截断方法不会造成信息损失。D.只有在研究目的是获取数据的一般规律特征时才有必要采取截断方法清楚异常值对于规律挖缺的干扰。
13、30.下列关于哑变量的说法中,不正确的是()oA.任何一个k个类别的定性变量都可以转换为k-1个哑变量。B.哑变量只有两个类别,用0和1表示。C.哑变量的OT形态与逻辑型数据的False和True相同,0表示True,1表示False0D.哑变量属于定性变量。31.下列表述中,正确的是()0A.含有缺失值的变量必须被剔除。B.数据缺失的原因一定是该数据不存在。C.数据缺失对于数据建模分析不存在影响。D.随机缺失类型是指数据的缺失仅仅依赖于其它变量。32 .下列关于数据错误的表述中,不正确的是()oA.数据集中所有错误的数据都可以被发现并予以纠正。B.数据自身的逻辑规律可以帮助我们发现一些数据错
14、误。C.类别名称不统一会造成数据错误。D.文字表述不规范会造成数据错误。33 .下列表述中,错误的是()oA.低频分类数据都是真实的分类结果确实存在低频类别导致的。B.可以通过绘制分类变量的各类别频数分布的箱线图来发现数据是否为低频分类数据。C.过多的低频类别会严重影响建模的效率,在数据预处理阶段需要尽量进行处理。D.低频分类数据通常呈现出类别众多,而且很多类别仅有几个甚至一个样本的情况。34 .下列关于数据预处理的目的中,不正确的是()。.完善数据,使其满足分析建模的质量和数据形式要求。B.使数据集得以简化,提高建模分析的效率。C.作为数据分析项目的第一步,为数据采集提供指导。D.提高数据信
15、息含量,进而提高数据分析模型的准确性。35.下列关于数据标准化的表述中,不正确的是()oA.标准化后,正负号代表了原始值是大于(+)还是小于(一)均值。B.标准化后,可以避免数据尺度差异对后续建模造成负面影响。C.标准化后,数据的标准差并没有变化,只有均值发生变化。D.标准化后,通过新值可以发现原始数据中的异常值。36.下列关于MaX-ABS缩放的表述中,不正确的是()。A.Max-ABS缩放将原值大于O的数据缩放到区间(0,1。B.不包含负数的变量经过Max-ABS缩放后的结果可能会出现负数。C.原值等于0的数据缩放后还为0。D.Max-ABS缩放的尺度就是变量绝对值的最大值。37.下列关于决策树模型的表述中,不正确的是()。.越晚进入决策树的变量,其对于目标变量而言越重要。B.该