《SAS软件与统计应用论文.docx》由会员分享,可在线阅读,更多相关《SAS软件与统计应用论文.docx(19页珍藏版)》请在优知文库上搜索。
1、本学期通过对SAS软件与统计应用这门课的学习,让我知道SAS系统是一个大型的应用软件系统,具有完备的数据访问、管理、分析、呈现,以与应用开发功能。这篇文章运用主成分分析除合评价方法,对1999年我国西部地区教化人力资源发展水平进行处理和分析,我纳的是西陵,新胭等西部省份教化人力资源发展水平(原始数据见附录选出14个省的状况作为统计分析数据,其中分析的项目为:每百万人口学校数:每十万人口毕业生数:每十万人口招生数;每十万人口在校生数;每十万人口探讨生数;每十万人口教职I:数:每十万人口专职老师数:高级老师占专职老师的比例:每所学校在校生数;生师比。依次用Al,A2,A3,A4,A5,A6,A7,
2、A8,A9,AlO表小O用“分析家”作主成分分析,并且对数据进行如下处理:第一:对于所选取的统计数据进行简洁描述统计分析,得出数据的平均值、数据标准差,最大值,最小值等。其次:对于所选取的统计数据用“analyst”作主成分分析计算相关系数矩阵的特征值、上下特征值之差、各主成分的方差贡献率、以与累积贡献率。第三:由相关系数矩阵的两个最大特征值的特征向量,可以写出第一、其次主成分的得分。第四:在“insight”里面绘制了散点图.由图可知,在散点图越界向右上角的地区,教化人力资源发展水平越高,越转向左上角的地区,教化人力资源发展水平越低。从以上结论分析可以知道影响各省份教化人力资源发展水平的主要
3、因素,从而可以更好地帮助国家调整教化人力资源结构,更好地发展我国西部教化事业。关键字:analyst主成分分析教化人力资源发展MEANS过程第一章基本介绍21.l探讨目的21.2 采纳方法21.3 理论学问2其次章数据预处理3第三章详细模型33.1 建立数据集33.2 详细模型(程序)5运行结果与分析74.1 运用“分析家”做主成分分析的步骤74.2 主成分的结果分析9参考文献14附录16第一章基本介绍1.1 探讨目的通过SAS软件分析,对1999年我国西部地区教化人力资源发展水平有一个大致了解。随着国家教化方针的调整,西部各地区为了促进本地区的教化发展,分别实行了各种措施,教化方面的发展有了
4、显著地成就。本文通过SAS软件分析,对1999年我国西部地区教化人力资源发展水平有一个大致了解,从而可以更好地帮助国家调整(优化)教化人力资源结构,使人民的受教化水平更加优越。1.2 采纳方法(1)描述性统计量:means(2)检验:运JnanaIySt模块进行主成分分析。1.3理论学问YeanS过程(均值过程):用于对数据型变量产生针对单个变量的简洁描述性统计。pr。CmeanS过程时,会对全部数值型变量进行操作,得到各变量的非缺失观测数N,均值MEAN,标准差STDDEV,最大值MaX和最小值Min五种统计值,但means过程可以计算16种统计量。主成分分析:是对于原先提出的全部变量,建立
5、尽可能少的新变盘,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析是数学上对数据降维的,种方法。其基本思想是设法将原来众多的具有肯定相关性的指标(比如P个指标),重新组合成组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。在全部的线性组合中所选取的FI应当是方差最大的,故称Fl为笫一主成分。假如第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选其次个线性组合。为了有效地反映原有佰息,Fl已有的信息就不须要再出现在F2中,用数学语言表达就是要求CoY(F1,F2)=(h称F2为其次主成分
6、,依此类推可以构造出第三、第四、第P个主成分。其次章数据颈处理对数据较少的程序,可以用DATA步建立永久的SAS集。永久的SAS集,由定义逻辑库与定义数据集两步完成.逻辑库定义通过1.IBMWE语句完成,数据集定义用DATA语句实现。指定逻辑库的吩咐语句为全程语句,其格式如下:1.IBNAME逻辑库名路径;指定要建立数据集的吩咐语句格式如下:DATA逻辑库名.数据集名;1.IBNME语句把磁盘中的子书目与用户定义的逻辑库名连接起来。用此方法依据已知的数据就可以建立生成以卜的数据集。第三章详细模型3.1 建立数据集2012年11月19日星期一下午12时19分55秒5ObsregionAlA2A3
7、A4A56A7A8A9AlO1海南0.3329140.6610.160496419112.047192广西0.3331130.6210.450416919234.040183山西0.3340920.7210.1706111819360.074304内蒙古0.3626170.807.430467721153.071325四川0.3941990.7510.10066112314164.077326重庆0.3741920.5010.1004177211120.053217贵州0.3328230.548.950286715221.035168云南0.3830790.578361386617649.04
8、4209西藏0.1410051.565.10042651573.9683010陕西0.3641731.191009.900188496398.014055H甘肃0.715590246113.065270.3134809.23012青海1.18496818317.068340.2015585.32013宁夏0.92-198324225.073330.3326247.52014新疆0.966611030551.096420.3031807.2303.2 详细模型(程序)Datawork,datal:inputregion$1-10AlA2A3A4A5A6A7A8910:cards;海南0.6649
9、641911247190.332914广西0.624110.16691923440180.333113山西0.726110.451181936074300.334092内蒙古081610.17772115371320.362617四川0.75667.4311231416477320.39419910.1重庆0.5417721112053210.37419210.1贵州0.5428671522135160.3328238.95云南0.5738661764944200.3830798361西藏1.5642651573.968300.1410055.1陕西1.19100188496398140550
10、.3641739.9甘市0.71559024611365270.3134809.23青海1.1849681831768340.215585.32宁夏0.9249832422573330.3326247.52新疆0.96661103055196420.331807.23run;procprint;run;第四章运行结果与分析4.1运用“分析家”做主成分分析的步骤D在分析家”中打开数据集WOrkdata1:2)选择菜单Statistics(统计)wMultivariate(多元分析44PrincipalComponents(主成分分析)“,打开PrincipalComponents,对话框:3)在
11、对话框中输入主成分分析的变量,如图4-1:图474)单击Statistics(统计)”按钮,打开44PrincipalComponents:Statistics”对话框;在#ofcomponents:,右边的框中指定主成分的个数10,如图42单击rtOKw返回:图4-25)单击SaveData”按钮,打开“PrincipalComponents:SaveDataw对话框,在该对话框中可选择存储数据。选中Createandsavescoresdata,如图4-3所示。单击“OK”返回;图4-36)单击Plots”按钮,打开PrincipalComponents:Plots对话框,可以设置图形输出
12、。在ScreePlot(碎石图)”选项卡中(图4-4),选中wCreatescreeplot(建立碎石图)”熨选框。在ComponentPlot(成分图)”选项卡中(图4-5),选中“CreatecomponentPlol(建立成分图)”曳选框。PrincipalComponents:PlotsXScreeplotEICmtescreeplotPositiveeigenvaluesOAIIeit.,I1图4-4图4-5ScreePlotCwetPlot4.2主成分的结果分析输出的数字分析结果包括4个部分:简洁统计量、相关系数矩阵、相关系数矩阵的特征值以与相关系数矩阵的特征向量。D图4-6给出变量的简洁统计量,图中显示10项指标中9(每所学校在校生数)、A5(每十万人1.I探讨生数)、A4(每十万人口在校生数)是最为重要的,其标准差远远高出其他变量SiroleSttisUcsAlA2A3A4除Mwn0.834?857143StD0.300SI4357552.21423571I745t427t689.5714285733.S5407370233.500000089.SB283G881.0842857102.5843583SirpleStatisticsMA7A8MAlOIfes67.92857143StO2G.664W229.21