《统计学第三章.ppt》由会员分享,可在线阅读,更多相关《统计学第三章.ppt(70页珍藏版)》请在优知文库上搜索。
1、第三章 统计整理 第一节 统计整理的意义和方法 第二节 统计分组 第三节 频数分布 第四节 数据显示第一节 统计整理的意义和方法 一、统计整理的意义 二、统计整理的内容与程序一、统计整理的意义 统计整理是统计工作的中间环节,是统计调查的继续和发展,是统计分析的前提和条件,在整个统计工作过程中起承上启下的作用。二、统计整理的内容与程序1、统计数据整理的内容2、数据整理的程序 1)统计资料的审核。 2)资料的分组和汇总。分组,即对资料按其性质和特点,划分为若干类;汇总,加总计算形成各项统计指标。统计分组和统计指标是整理的中心工作。 3)编制统计表或绘制统计图。 4)统计资料的积累、保管和公布。第二
2、节统计分组分组前分组前分组后分组后253342一、统计分组的概念和原则1、概念2、原则穷尽原则:使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。互斥原则:在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。二、统计分组的意义1、划分现象类型、划分现象类型 例:按所有制性质划分,我国工业企业可分为:例:按所有制性质划分,我国工业企业可分为:国有企业;集体企业;个体企业;合资企业;国有企业;集体企业;个体企业;合资企业;外资企业。外资企业。2、研究总体结构1990年2000年2008年2009年GDP100 100 100 100第
3、一产业3.24.32.52.3第二产业75.763.854.552.2第三产业21.131.943.045.5例:例:某市按某市按GDP计算的三次产业结构(计算的三次产业结构(%)家庭月收入(元)家庭户数(户)家庭月平均支出(元)1600以下410001600-1700710901700-1800212001800-1900915701900-2000716602000以上111690例例 40户居民家庭按月收入分组户居民家庭按月收入分组3、研究现象之间的依存关系三、统计分组的种类种类种类按分组标志性质分按分组标志性质分品质分组品质分组变量分组变量分组按分组标志个数分按分组标志个数分简单分组简
4、单分组复合分组复合分组按任务和作用不同按任务和作用不同类型分组类型分组结构分组结构分组分析分组分析分组1、按分组标志的多少,可分为简单分组和复合分组。 简单分组:就是对研究现象按一个标志进行分组。 复合分组:用两个或两个以上标志分组,即先按一个标志分组,在此基础上再按第二个标志分小组,又再层叠地按第三个标志分成更小的组,这称为复合分组。简单分组和复合分组例:例: 某地区某地区19971997年底各类工业企业数年底各类工业企业数按所有制性质分组企业数(个)比重(%)全民所有制企业320464.08集体所有制企业128625.72私营企业1523.04中外合资企业2124.24外商独资企业1022
5、.04其他企业440.88合 计5000100.00例:例: 某班学生分组表某班学生分组表按性别分人数男60女40按考试成绩分组(分)人数60分以下56070分307080分358090分2090分以上10例:例: 某班学生分组表某班学生分组表 按性别、考分分组 人数 男 60分以下 6070分 7080分 8090分 90分以上 女 60分以下 6070分 7080分 8090分 90分以上6032022114402101396例:例: 某地区某地区19971997年底各类工业企业及规模构成情况年底各类工业企业及规模构成情况按所有制性质及规模分组企业数(个)比重(%) 全民所有制企业3204
6、64.08大 型51210.24中 型70814.16小 型198439.68 集体所有制企业128625.72大 型2865.72中 型4348.68小 型56611.32 私营企业1523.04大 型240.48中 型480.96小 型801.60(接上) 中外合资企业2124.24大 型701.40中 型741.48小 型681.36 外商独资企业1022.04大 型280.56中 型360.72小 型380.76 其他类型企业440.88大 型60.12中 型100.20小 型280.56 合 计5000100.002、按分组的标志的性质不同,分为品质分组(或称属性分组)和数量分组(或
7、称变量分组)。 品质分组:按品质(或属性)标志进行分组。品质分组所形成的数列称为品质数列。 数量分组:按数量标志分组,数量标志的变异性体现在它不断变动自身的数量上,故也称为变量分组。变量分组所形成的数列称为变量数列。3、按分组的作用和任务不同,分为类型分组、结构分组和分析分组。 类型分组:把复杂的现象总体,划分为若干个不同性质的部分,就是类型分组。 结构分组:在对总体分组的基础上计算出各组对总体的比重,借此研究总体各部分的结构,即结构分组。 分析分组:为研究现象之间依存关系而进行的统计分组即分析分组。四、统计分组方法(一)品质分组的方法(二)变量分组的方法(一)品质分组的方法 品质分组一般较简
8、单,分组标志一旦确定,组数、组名、组与组之间的界限也就确定。但也有较难的情况,需经专门的研究才能确定。有些复杂的品质标志分组可根据统一规定的划分标准和分类目录进行。 (二)变量分组的方法 等距分组等距分组不等距分组不等距分组变量分组方变量分组方法法单项式分组单项式分组组距式分组组距式分组1、单项式分组与组距式分组单项式分组 将一个变量值作为一组 适合于对变量值较少的离散变量的分组 举例:居民家庭按儿童数或人口数分组 组距式分组将变量值的一个区间作为一组适合于变量值变动大、项数又较多的离散变量。如分数。适合于连续变量。如身高。可采用等距分组,也可采用不等距分组2、间断组距式分组和连续组距式分组
9、间断组距式分组:组限不相连的组距式分组。 如儿童按年龄分组。 连续组距式分组:组限相连(或称相重叠的),即以同一数值作为相邻两组的共同界限的组距式分组。 如学生按成绩分组。 下限,上限:组距式分组的每一组变量值中,其最小值为下限,最大值为上限。 组距:上下限之间的距离。 组限:相邻两组的界限。 离散型变量,可间断组距式分组,也可连续组距式分组。连续型变量,只能采用连续组距式分组。 “上限在不内”原则:在连续组距式分组中,以同一个数值作为相邻两组共同的界限,统计上规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内。 3等距分组和不等距分组 等距分组是各组保持相
10、等的组距,也就是说各组标志值的变动都限于相同的范围。一般用于标志值变动比较均匀的场合。如工人工资、年龄。 不等距分组即各组组距不相等的分组。适用于标志值分布很不均匀,标志值相等的量具有不同意义的场合和标志值按一定比例发展变化的场合。 分别举例。 4组限和组中值(1)组限、组距 组距两端的数值称组限。其中,每组的起点数值称为下限,每组的终点数值称为上限。 上限和下限的差称组距,表示各组标志值变动的范围。1.组距 连续式分组的组距计算公式:组距=本组上限本组下限 间断式分组的组距计算公式:组距=本组上限本组下限+1开口组的组距:以相邻组的组距为本组的组距。 (2)组中值:上下限之间的中点数值,以代
11、表各组标志值的一般水平。 组中值=(上限+下限)2 或者 组中值=下限+(组距2) 对于第一组是 “多少以下”,最后一组是“多少以上”的开口组,组中值的计算可参照邻组的组距来决定。即: 缺下限开口组组中值=上限-1/2邻组组距, 缺上限开口组组中值=下限+1/2邻组组距。等距分组(上下组限重叠)等距分组(上下组限间断)等距分组(使用开口组)第三节 频数分布一、频数分布的概念1、频数分布 在统计分组的基础上,将总体所有的单位按某一标志进行归类排列,并计算各组的单位数,称为频数分布,或次数分布。 根据分组标志特征的不同,分布数列可分为品质(分布)数列和变量(分布)数列。2、分布数列的两个要素 1)
12、总体按某标志所分的组。 2)各组所出现的单位数,即频数,亦称次数。对于变量数列,标志值形成的数列,称为变量,一般用x表示;频数(次数)用f表示。 2分布数列的类型 分布数列包括品质分布数列(简称品质数列)和变量分布数列(简称变量数列),分别由品质标志分组和数量标志分组形成。 变量数列又有单项式数列和组距式数列,分别由单项式分组和组距式分组形成。 品质数列示例例:例: 某企业职工按性别分组表某企业职工按性别分组表性别人数(人) 比重(%)男24040女36060合计600100变量数列示例组距式数列例:例: 某小学四(某小学四(1)班学生分组表)班学生分组表 身 高(cm)人 数(人)120以下
13、5120130121301402014015015150以上8合计60变量数列示例单项式数列 年龄(岁)人 数(人)12513271420158合计60二、变量数列的编制 例:例: 某企业某企业100名工人每周工资资料名工人每周工资资料 单位:元单位:元 480 250 440 220 350 350 420 380 360 350 350 280 340 320 520 430 500 440 480 460 580 470 330 410 420 350 380 470 610 390 400 450 390 460 290 510 320 380 410 530 440 380 470
14、570 260 400 470 560 430 600 580 450 420 560 520 410 520 390 480 230(1)排序列。将原始资料按数值大小排列。 例:例: 依前表的数据整理而成的变量序列资料依前表的数据整理而成的变量序列资料200 220 230 250 260 280 290 290 300 300310 320 320 320 330 340 340 350 350 350350 350 360 360 370 370 370 380 380 380380 390 390 390 400 400 400 400 410 410410 420 420 420 4
15、20 420 430 430 430 440440 440 440 450 450 450 460 460 460 470(2)确定全距(计为R),即: Rxxmaxminxmaxxmin式式 中,中, :原数列的最大值原数列的最大值 :原数列的最小值原数列的最小值 此例中,此例中,R650200450(元元) (3)确定组数和组距 编制变量数列的关键在于确定组数。组数一经确定,组距也就随之确定。 确定组数的基本原则是:1)根据现象的性质和特点确定组数。2)根据原数据的分布特征及集中趋势确定组数。3)具体操作上来说,组数既不能太多,也不能太少。一般来说,组数不应少于6或大于15。 dRk 其中
16、,其中,:组距组距 :组数组数 =4508= 56.2557(元元) 斯特杰斯经验公式:斯特杰斯经验公式:组数组数=1+3.3 Lg N=1+3.3 Lg N(4)确定组限。 1)确定最小组的下限。有两种方法: 将原始资料中的最小变量值确定为最小组的下限。 将原始资料中的最小变量值确定为最小组的组中值。 2)确定组限的表示方法。与组数和组距一样,组限和组中值也最好取整数。对于相邻两组的组限有两种表示方法:变量是连续型的,相邻两组的上下限可以重叠,即同一变量值可以作为相邻两组的上限和下限。变量是离散型的,相邻两组的上下限就用整数断开。(5)归类汇总计算各组次数 所谓归类汇总,是指按照各个总体单位的具体标志值,将其划归某一具体组之中,在归类汇总时,要遵循“不重复不遗漏”的基本原则。 对于恰好是组限的标志值的总体单位之归类问题,一般应按“上限不在内”原则,即本组下限的次数属于本组,本组上限的次数归于邻近的较大组。 计算结果可以用频数或频率表示。 例:某工业企业例:某工业企业100100名工人按每周工资额分组名工人按每周工资额分组按工资额分组(元)职工人数(人)(频数)占总数(%)(频率)20