《数据挖掘实验指导书.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验指导书.docx(15页珍藏版)》请在优知文库上搜索。
1、I.t.t*Lt-t数据挖掘实验指导书实验一:数据分析与可视化1实验二:数据挖掘分析8实验一:数据分析与可视化一、实验目的和要求1 .熟悉掌握PythOn编程基础2 .熟悉掌握利用Python进行数据分析3 .熟悉掌握利用Python进行可视化的方法二、实验内容和原理1 .使用Python进行数据导入2 .使用python进行数据的探索性分析3 .使用Python进行数据可视化分析三、主要仪器设备计算机1台,本机型号_HPPavilionNotebook15-bc5xxx;Python版本:3.7;matplotlib版本:3.5.1。四、实验步骤1 .绘制散点图散点图是指在回归分析中,数据点
2、在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。步骤如下:(1)导入相关模块importmatplotlib.pyplotaspitimportnumpyasnp(2)使用随机数模块生成100组数据点# 随机产生100个02之间的X,y坐标X=np.random,rand(n)*2y-np.random,rand(n)*2(3)设置散点图的属性:颜色、面积、透明度colors-nprandom,rand(n)# 随机产生100个01之间的颜色值area=np.pi*(10*np.random,rand(n)*2# 点的半径范围:01
3、0(4)绘制并显示散点图pit.scatter(x,y,s-area,c=colors,alpha-0.5,marker=o)pit.show()2 .绘制直方图直方图是一种可视化表示数据在连续间隔或者特定时间段内容的分布情况;直方图又称为质量分布图,属于条行图的一种;直方图X轴表示数据类型,纵轴表示分布情况,每个数据宽度可以任意变化。步骤如下: 导入IlIatPIotlib.pyplot模块 准备数据,可以使用numpyPandaS整理数据 调用PyPIOt.hist()绘制直方图(1)导入相关模块(2)使用随机数模块生成待可视化的学生身高数据1000条;(3)调用PyPlOt.hist()
4、绘制直方图,bars=100;(4)直方图名称为你的姓名,X轴标签为身高,y轴标签为数量;(5)显示直方图;(6)改变直方图的透明度,再绘制一幅直方图。3 .绘制箱线图箱线图反映数据分布特征的统计量,能提供有关数据位置和分散情况的关节信息,尤其在比较不同特征时,更可表现其分散程度差异。步骤如下:(1)导入相关模块:numpymatplotlib.pyplotpandas(2)使用随机数模块生成100行5列的DataFrame;(3)各列属性名为A,B,C,D,E)(4)绘制并显示箱线图。(5)箱线图名称为你的姓名4 .绘制词云“词云”是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成
5、“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。“词云”就是数据可视化的一种形式。给出一段文本的关键词,根据关键词的出现频率而生成的一幅图像,人们只要扫一眼就能够明白文章主旨。步骤如下:(1)导入相关模块frompyechartsimportoptionsasoptsfrompyecharts.chartsimportPage,WordCloudfrompyecharts.globalsimportSymbolType(2)自主构造需要可视化的词云,不少于20个词。(3)使用WordCIoudO方法,设置相关参数。c=WordClou
6、dOc.add(”,words,word_size_range=20,80)c.set_global_opts(title_opts=opts.TitleOpts(title=WordCloud-基本示例)c.render_notebook()五、实验数据记录和处理代码记录行号代码1importmatplotlib.pyplotaspit2importnumpyasnp3n=1004x=np.random,rand(n)*25y=np.random,rand(n)*26colors-np.random,rand(n)7area=np.pi*(10*np.random,rand(n)*28are
7、a=np.pi*(10*np.random,rand(n)*29pit.scatter(x,y,s=area,c=colors,alpha=0.5,marker=。)10pit.show()1importmatplotlib.pyplotaspit2importnumpyasnp3yHeight=np.random,randint(150,200,500)4pit.hist(y_Height,bins=50)5pit.title(曹森国)6pit.Xiabel(Height)7pit.ylabel(Counts)8pit.reParams,font,sans-serif,二SimHei,9pi
8、t.reParams,axes,unicodeminus,=False10pit.show()1importnumpyasnp2importmatplotlib.pyplotaspit3importpandasaspd行号代码4np.random,seed(2)5df=pd.DataFrame(np.random,rand(10,4)6columns=,A,B,C,D,7pit.reParams,font,sans-serif,=,Simhei,8pit.reParams,axes.UniCodeIIinUS=False9pit.boxplot(df)10pit.title(曹森国)11pit
9、.show()1frompyechartsimportoptionsasopts2frompyecharts.chartsimportPage,WordCloud3frompyecharts.globalsimportSymbolType4words=(曹森国,9925),(直方图,1115),(箱线,8625),(词云,7151),(数据,4500),(挖掘,3054),(矩阵,9545),(乘法,2222),(实验,8888),(专周,4445),(app,6014),(应用,8125),(结束,3334),(奶茶,2224),(有事,4154),(没事,6194),(GG,8774),(
10、爱惜,9994),(模块,2544),(知道,6664),(基本,5554),(按摩师,4444),(暗示,2224)5c=WordCloudO6c.add(,words,word_size_range=20,80)7c.set_global_opts(title_opts=opts.TitleOpts(title=WordClouCr)8c.render(词云.htm/)六、实验结果记录(贴图)Figure1XQ三Is)1.散点图:2.直方图:3.箱线图:奶茶妒GG回其本卷词云号模块模块4.词云:实验二:数据挖掘分析一、实验目的和要求1 .熟悉掌握Python编程基础2 .熟悉掌握利用Pyt
11、hon进行数据分析3 .熟悉掌握利用Python进行数据挖掘的方法二、实验内容和原理1 .使用PythOn进行数据导入2 .使用python进行数据的探索性分析3 .使用PythOn进行数据挖掘的方法三、主要仪器设备计算机1台,本机型号_HPPavilionNotebook15-bc5xxx;Python版本:3.7;用到的库的版本:PandaSL3.7mmpyl.2L5skleam四、实验步骤本次实验将综合使用之前学习的知识,实现对肿瘤数据breast-CanCer-WiSCOnSirLdata的分析和预测。步骤如下:1 .导入相关模块:importpandasaspdimportnumpy
12、asnp2 .读入数据breast-cancer-wisconsin.data,各列属性值为下面column_names中的值,读取之后显示前5行以查看数据。column-names=,number,ClJhickness,Unif-cell-size,Unif_cell_shape,Marg_Adhesion,Sing-epith-cell-size,Bare-nuclei,Bland_chromation,Norm-nuclei,Mitoses,Class,data=pd.read_csv(,breast-cancer-wisconsin.data,names=co1umn_names)8
13、/6display(data,head()3 .利用describe。查看数据的基本统计信息4 .统计数据属性中的空缺值isnull().sum()5 .如果数据中存在空缺数据需要丢弃或填充。该数据集中包含了16个缺失值用“?”标出。因此要删除有缺失值的数据。data=data.replace(to_replace-,?,value=n.nan)data=data.dropna(how三,any,)print(data,shape)6 .将数据划分为训练集和测试集fromsklearn.model_selectionimporttrain_test_split#划分训练集与测试集X_train
14、,X_test,y_train,y_test=train_test_split(datacolumn_names1:10,datacolumn_names10,test_size-O.25,random_state-33)Print(训练样本的数量和类别分布:n,y_train.value_counts()7 .标准化数据,每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值主导。fromsklearn.preprocessingimportStandarclScalerSs=StandardScalerOX_train=ss.fit_transform(X_train)X_test=ss.transform(X_test)print(X_train.meanO)8 .用LogiStiCRegreSSion构建分类器。fromsklearn.