《多元统计分析论文.docx》由会员分享,可在线阅读,更多相关《多元统计分析论文.docx(17页珍藏版)》请在优知文库上搜索。
1、关于城镇居民人均全年家庭收入来源的统计分析某某学院:理学院班级:10统计一班指导教师:高艳摘要:为了了解我国城镇人均居民收入的根本情况和收入来源,我选取了人均可支配收入、总收入、工资性收入、经营净收入、财产性收入和转移性收入几个指标对这个问题进行分析。本文首先采用聚类分析对各个省(市)的城镇居民人均收入进行了聚类,发现我国的各个省(市)之间的生活水平还是存在较大差异;然后用了判别分析对其中几个还没有分类的省(市)进行分类并对已经分好类的省(市)进行了一下判别,看一下我们第一步的分类是否合理:接着做了因子分析,分析了一下几个收入变量之间的关系,找出了两个可以代表全局的变量;最后在因子分析的根底上
2、对数据做了一个相应分析,观察了两个因子之间的关系。结果说明,各地区的经济开展不太平衡,人民生活水平差距较大,我们政府应采取一定的措施来带动相对落后的地区开展起来,实现共同富裕。关键词:城镇居民人均收入、聚类分析、判别分析、因子分析、相应分析、生活水平正文:序言:近年以来,全国上下认真贯彻落实科学开展观,以农业增产、农民增收为目的,加大各项惠农政策措施落实力度,多措并举做好农村劳动力转移就业工作,克服金融危机和严重干旱等自然灾害带来的不利影响,使全市农村经济保持了稳定开展的良好态势,农民现金收入持续增长,生活消费水平继续提高。我国是一个农业大国,至今仍有9亿农村人口,占全国人口总数的70%,农民
3、是我国最大的群体,农村消费能力的提升直接关系到国民经济的全局。从农村市场看,中国有近六成人口生活在农村。农村城镇化的进程对经济增长的带动作用是非常明显的,世界上还没有哪个国家有规模如此巨大的城镇化。农村居民的收入虽然低于城市居民,但是基数巨大,且农村人口的收入也在稳定增长。随着经济的开展,我国城镇居民的收入水平和消费水平的结构也发生了很大变化,人民生活水平的提高和消费的增加对于实现国民经济又好又快开展、正确处理好内需和外需的关系至关重要。于是,我就城镇居民人均收入方面的数据作了分析,大致讨论了一下现今为止人民的收入水平以及各地区农民的生活状况。正文:我选取了中国统计年鉴上的一组数据,关于各地区
4、城镇居民人均收入方面的问题,具体数据可以在文件夹中找到。对该数据,我用统计软件对它进行了聚类、判别、因子、相应等方面的分析,想要通过对该数据的分析了解一下我国各城市的居民人均收入情况,并对此提出相应的建议。具体分析情况如下:一、首先,录入数据如下:图-1二、对所录入的数据做聚类分析:“物以类聚,人以群分。对事物进行分类,是人们认识事物的出发点,也是人们认识世界的一种重要方法。因此,分类学己成为人们认识世界的一门根底科学。为了克服定性分类存在的缺乏,人们把数学方法引入分类中,形成了数值分类学。后来随着多元统计分析的开展,从数值分类学中逐渐别离出了聚类分析方法。随着计算机技术的不断开展,利用数学方
5、法研究分类不仅非常必要而且完全可能,因此近年来,聚类分析的理论和应用得到了迅速的开展。聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。在这里我用了系统聚类对数据进行聚类分析,也是属于Q型聚类,按照收入水平高、中、低的原那么,初步把各个省份分为三类。为了在第三步里进行判别分析,所以我首先取出了河北、上海、广东、西藏四个地区的信息,对其他的地区进行分类分析。表-1聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集2L111692847.908002713193129.03400341
6、5384319.3310042226653214.995008547991593.0253213611211332913.8011012718201760721.431001188222311763.1090414919272913511.67200131017233542513.9020015115184297698.284071勺1211245149736.4956015134196612667.0225916148258302676.45680IS1511171.014E7121016164111.25OE7131524171141.596E70022188281.990E7140241
7、9562.388E711022209122.880E7002121394J13E70202522156.321E7171926232108.620E700252448L215E816182625232.326E823212726143.490E822242727121.349E926250上表是我用系统聚类得到的聚类表,其中包括了群集组合、系数和首次出现阶群集,从中可以看出不同的群集之间的系数差异较大。表.2群集成员案例3群集L:全国12:北京23:天津24:山西35:内蒙古16:辽宁17:吉林38:黑龙江9:江苏210:浙江211:安徽12:福建213:江西314:山东115:河南316:湖
8、北17:湖南318:广西119:海南320:重庆121:四川322:贵州23:云南324:陕西325:甘肃26:青海327:宁夏328:新疆3表-2是我用系统聚类得到的最终的聚类结果。从表中可以看出,内蒙古、辽宁、山东、广西和重庆分为第一类;北京、天津、江苏、浙江和福建分为第二类;其余的省份分为第三类。从原数据表中可以看出,第二类的收入水平很高,属于在工资方面比拟兴旺的地区,人民生活水平也应该比拟高:第三类的收入水平很低,属于不太富裕的地区,人民生活水平有待提高;第一类的收入水平居中,人民生活水平相比照拟不错。*HERARCHCALclusteranalysis*Dendrogramusing
9、AverageLinkage(BetweenGroups)RcscalcdDistanceClusterCombineCASE05101520251.abeINum+安徽13-+湖北18-+四川24T云南26-+吉林8-+江西15-+山西5T河南17-+海南22-+宁夏31-+湖南19T河北4-+陕西28-+三21-+重庆23T内蒙古6-+辽宁7-+-+贵州25TI青海30-+I黑龙江G=+甘肃2911新疆32II西藏27-+全国1-+山东16I江苏11-+-+福建14Ill天津3-+-+广东20+北京2-+上海10-+浙江12图-2图-2是聚类分析的树形图,可以大概的看一下分类结果,从中可以
10、看出树形图中得出的结论和群集成员表的分类结果是相吻合的,也比拟符合实际。三、在聚类分析的根底上对其它的四个未分类的数据做出判别,找到属于它们的分类:表-3会Sf的组内矩阵可支配收入总收入工资性收入经营净收人财产性收人转移性收人相关性可支配收入LOOO,978,842J29.225.378总收入.978LOoO,882.075.166.407工资性收人,842,8821,000-.190.080J36经营净收入.129.0751901.000.452308财产性收入,225,080.4521.000-.456转移性收/.378.407.136-.308-.4561.000表-3是会聚的组内矩阵,
11、其中的数值表示的是每个变量同他自身以及其他的变量之间的相关系数,从中可以看出可支配收入、总收入和工资性收入之间的相关性是比拟大的,而其他的几个变量之间的相关性较小。表-4标准化的典型判别式函数系数函数12可支配收入.9052.392总收人.6753.988工资性收入-J252.044经营净收入.116.995财产性收人.061-.628标准化的典型判别函数是由标准化的自变量通过FiSher判别法得到的,通过上表可以得到标准化的典型判别函数,要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。这种方法相比照拟麻烦,我们一般不采用。表-5典型判别式函数裾函数12可支配收人0.0005
12、87.002总收人0.000370-.002工资性收入-0.000460+001经营净收入-0.000209.002财产性收入0.000200-.002篇常量)-11.498-2.997非标准化系数上表是未标准化的典型判别函数系数,由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些,见表-5。一般在输出表中是默认保存三位小数,但有些系数是0.000,为判别函数的结果造成误差,可以在右击后选择更改单元格格式中改一下显示的小数点位数。由此表可知,两个FiSher判别函数分别为:实际上两个函数式计算的是各观测值在各个维度上的坐标,这样就可以通过这三个函数式计算出各样品观测值的具体空间位置。表-6组质心处的函数WardMethod函数121.260.70525J49-.2343-1.606-.180在组均值处评估的非标准化典型判别式函数表-6给出了组重心处的函数,实际上为各类别重心在空间中的坐标位置。这样,只要在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以得知它们的分类了。奏7分类函数泵数WardMethod123可支配收入.017.019.015总收人-.007-.003-.006工资性收入-.002-.005-.002经营净