第3章数据整理和频数分布.ppt

上传人:王** 文档编号:603192 上传时间:2023-12-08 格式:PPT 页数:79 大小:690KB
下载 相关 举报
第3章数据整理和频数分布.ppt_第1页
第1页 / 共79页
第3章数据整理和频数分布.ppt_第2页
第2页 / 共79页
第3章数据整理和频数分布.ppt_第3页
第3页 / 共79页
第3章数据整理和频数分布.ppt_第4页
第4页 / 共79页
第3章数据整理和频数分布.ppt_第5页
第5页 / 共79页
第3章数据整理和频数分布.ppt_第6页
第6页 / 共79页
第3章数据整理和频数分布.ppt_第7页
第7页 / 共79页
第3章数据整理和频数分布.ppt_第8页
第8页 / 共79页
第3章数据整理和频数分布.ppt_第9页
第9页 / 共79页
第3章数据整理和频数分布.ppt_第10页
第10页 / 共79页
亲,该文档总共79页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第3章数据整理和频数分布.ppt》由会员分享,可在线阅读,更多相关《第3章数据整理和频数分布.ppt(79页珍藏版)》请在优知文库上搜索。

1、统计学教程第3章 数据整理和频数分布 2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.1 数据的审核和筛选 3.4 绝对数 3.1.1 数据的审核 3.4.1 绝对数的概念 3.1.2 数据的筛选 3.4.2 绝对数的种类 3.1.3 数据的排序 3.4.3 绝对数的计量单位 3.2 数据的分组 3.5 数据的展示 3.2.1 数据分组的意义 3.5.1 统计表 3.2.2 非数值型数据的分组 3.5.2 统计图 3.2.3 数值型数据的分组 3.2.4 组中值3.3 数据的频数分布 3.3.1 频数与频数分布 3.3.2 累积频数 3.3.3 异距分组与标准组

2、距频数第3章 数据整理和频数分布 3.1 3.1 数据的审核和筛选数据的审核和筛选统计学教程2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.1.1 数据的审核 1原始数据 原始数据(Raw Data)是指数据搜集所取得到的,未经过数据分组和汇总的,反映个体特征的零散数据。数据审核(Data Auditing)是指在进行数据整理之前对原始数据的审查和核对。原始数据包含了所有由调查登记获取的个体信息的初级数据,经过数据整理的数据反映的是总体的综合数量特征和分布状态,原始数据所反映的个体数值特征消失或湮没在总体的综合数量特征和分布状态数值之中了。数据整理是按照数据分析

3、的要求进行的,数据分析思路和目的决定着数据整理分类或分组。3.1 3.1 数据的审核和筛选数据的审核和筛选 2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.1 3.1 数据的审核和筛选数据的审核和筛选 2数据审核的内容 统计数据的时效性,准确性、一致性三个方面的标准就是数据审核的基本内容。(1)统计数据的时效性审核。检查是否在规定的统计调查时间内完成数据搜集,采集的数据是否为规定的调查时点上,或规定的调查时段内的数量特征。(2)统计数据的准确性审核。从数据的完整性、真实性和精确性角度进行审核。(3)统计数据的一致性审核。检查统计数据在时间和空间上的连续性和可比性

4、。2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.1 3.1 数据的审核和筛选数据的审核和筛选 3数据审核的方式 数据审核一般有逻辑检查和技术检查两种方式。(1)逻辑审核(Logistic Auditing)是按照数据审核的内容,采用逻辑分析的方法,检查原始数据中各项数据是否合理的数据审核方式。逻辑检查要求检查人员具备较强逻辑推理能力,以及丰富的专业知识和数据审核经验。(2)技术审核(Technical Auditing)是按照数据审核的内容,通过对调查数据原始登记表,和其它原始登记材料进行机械性核对,来实施的数据审核方式。2023年11月15日/上午1时36分

5、统计学教程第3章 数据整理和频数分布 3.1.2 数据的筛选 数据筛选(Data Filter)是指对已有数据的有意识的过滤和挑选,滤去不需要的数据,选出所需要的数据。从广义上讲,数据审核也是一种数据筛选。这里所讲的数据筛选是指按照数据分析的要求所确定的挑选数据标准,通过对现有数据的逐一比较,从中挑选出一组数据,构成一个数据集合的过程。3.1 3.1 数据的审核和筛选数据的审核和筛选 2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.1 3.1 数据的审核和筛选数据的审核和筛选 3.1.3 数据的排序 数据排序是指将一组数据按照大小、高低、优劣等顺序进行依次排列的

6、过程。依据数据在经过排序之后的有序序列中的位置确定的测度称为顺序统计量(Order Statistics)。数据排序为计算取值范围、最大值、最小值等总体参数提供了便利,有助于人们了解数据大致的分布状态,数据排序也是有效地进行数据分类或分组的前期准备。2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.1 3.1 数据的审核和筛选数据的审核和筛选 审核 分组 汇总 再审核 统计图表 既定的,以前认识活动的成果。政府统计工作整理环节过程示意图 2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.1 3.1 数据的审核和筛选数据的审核和筛选 政

7、府统计工作整理环节过程示意图 审核 分组 汇总 再审核 统计图表一般的统计认识过程第3章 数据整理和频数分布 3.2 3.2 数据的分组数据的分组统计学教程2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.2 3.2 数据的分组数据的分组 3.2.1 数据分组的意义 数据分组(数据分组(Data GroupingData Grouping)就是根据)就是根据研究现象的特点和数据分析的研究现象的特点和数据分析的目的目的,将原始数据按照总体单位的某一特征分为不同的组别。,将原始数据按照总体单位的某一特征分为不同的组别。经过数据分组之后形成的分布在各个组里的数据称为分组

8、数据(Grouped Data)。作为数据分组标准的这一特征称为分组标志。数据分组既可以视为是按照分组标志将原始数据分别归入各个不同的组里,又可以看成是按照分组标志部分具有相同特征原始数据合并在同一组中。在数据分组过程中,强调和突出了原始数据中强调和突出了原始数据中作为分组标志作为分组标志这这一特征,同时一特征,同时忽略和隐去了原始数据中的其它特征忽略和隐去了原始数据中的其它特征。按照统计研究的要求,科学地选择分组标志是有效进行统计认识活动科学地选择分组标志是有效进行统计认识活动的基本前提。的基本前提。数据分组包括非数值型数据分组和数值型数据分组。2023年11月15日/上午1时36分统计学教

9、程第3章 数据整理和频数分布 3.2 3.2 数据的分组数据的分组 3.2.2 非数值型数据的分组 非数值型数据的分组也称为分类。定类数据和定序数据都是对事物质的属性的描述,两者都是一种分类性质的数据,只在分类划分的无序和有序上存在差别。反映事物自然属性的非数值型数据的分组一般比较简单,只要进行适当的细分或合并,以及选择恰当的分组标志即可。反映事物社会经济属性的非数值型数据的分组一般比较复杂,往往是人们对事物数量特征进行深入地统计分析之后形成的一种质的划分,这种质的划分体现了人们认识活动对与事物由量变到质变的把握,一般采用国家标准、行业标准或者企业标准等标准化的形式确定下来,并借助统计报表和统

10、计调查方案等方式加以明确,以此来规范和指导后续的统计活动。2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.2 3.2 数据的分组数据的分组 在我国现行统计制度中,将城镇家庭分成收入水平由低到高的七组,即最低收入户、低收入户、中等偏下收入户、中等收入户、中等偏上收入户、高收入户、最高收入户,属于定序数据的分组。这七组的划分是将所有调查户依户人均可支配收入由低到高排序,然后按照10%,10%,20%,20%,20%,10%,10%的频数比例依次分组,最后构成了我国城镇家庭分成收入水平由低到高不同收入阶层的定性分组。表3.1 2003年我国城镇居民家庭基本情况 元资料

11、来源:2004中国统计年鉴.北京.中国统计出版社 2004最低低收中等中等中等高收最高收入户入户偏下户收入户偏上户入户收入户平均每人全部年收入 2762.43 4209.16 5705.67 7753.86 10463.66 14076.07 23483.95平均每人可支配收入 2590.17 3970.03 5377.25 7278.759763.3713123.08 21837.32平均每人消费性支出 2562.36 3549.28 4557.82 5848.027547.319627.5814515.68项 目2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3

12、.2 3.2 数据的分组数据的分组 19902002年 江苏省城镇家庭“可支配收入”分组表(单位:元)2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.2 3.2 数据的分组数据的分组 19902002年 江苏省城镇家庭可支配收入水平折线图2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.2 3.2 数据的分组数据的分组 3.2.3 数值型数据的分组1组距分组(1)组距分组是数值型数据分组的基本形式。数值型数据分组可以分为单变量分组和组距分组。单变量分组是指每个分组只用一个变量值表示的分组形式,又称为单项分组。单变量分组一般在分组标志

13、为离散变量,且变量的取值范围不是太大的情况下使用。组距分组是指每个分组用一个数据取值区间表示的分组形式。组距分组适用于按连续变量分组或变量的取值范围较大的离散变量的场合。2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.2 3.2 数据的分组数据的分组 (2)组限。在组距分组中,各组之间的取值界限称为组限,一般用表示。其中大者为该组数值变量可能取的最大数值,称之为上限(Upper Limit,U)。小者为该组数值变量可能取的最小数值,称之为下限(Low Limit,L)。在一个组距分组中,既有上限又有下限的组称为闭口组,否则称为开口组。(3)组距。组距分组中,同一

14、分组的上限与下限之间的绝对距离称为组距(Class Width,d)。一般有,组距d上限U 下限L。2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.2 3.2 数据的分组数据的分组 2等距分组 组距分组有等距分组和异距分组之分。等距分组是各组组距全都相等的组距分组,等距分组中各组单位数的多少不会受到组距大小的影响,便于直接比较各组次数的多少,研究次数分布的特征。因此,等距分组是组距分组的基本方法。等距分组的具体步骤如下。(1)计算取值范围。(2)确定组数。(3)计算组距。(4)确定组限。(5)将原始数据按照各自数值大小分配到各组中。2023年11月15日/上午1

15、时36分统计学教程第3章 数据整理和频数分布 3.2 3.2 数据的分组数据的分组 (1)计算取值范围。取值范围(Value Area)为全体数据中最大数值与最小数值之差,反映了该组数值变量取值的变动幅度,一般用R R 表示,有 (3.1)(2)确定组数。在进行数值型数据分组时,有一个计算组数的经验公式,即斯特格斯(Sturges)公式 (3.2)确定组数的目的是为了使数据恰当地分布在各组中,数据过于集中和过于分散都有碍于对数据分布特征的展示,不利于后续的分析研究,组距的确定还要根据实际情况,因地制宜地加以确定。XMinXMaxR2lglg1NH2023年11月15日/上午1时36分统计学教程

16、第3章 数据整理和频数分布 3.2 3.2 数据的分组数据的分组 (3)计算组距。由于取值范围是客观存在的,当组数确定之后,组距也就随之确定了,两者之间成反比例关系。设 H H 为组数,即有组距d=R/Hd=R/H。为了便于数据分组和组限的划定,组距一般取5,10的整数倍。(4)确定组限。确定组限就是具体规定各组中变量可能取值的上限和下限。确定组限的原则是“不重不漏”,使每一数据都能够被分配到其中一组里,并且只能分配到其中一组里。组限的具体形公式有间断组限和重合组限,闭口组限和开口组限。2023年11月15日/上午1时36分统计学教程第3章 数据整理和频数分布 3.2 3.2 数据的分组数据的分组 间断组限是每一组的组限与邻组的组限都是间断设置的。重合组限是每一组的组限与邻组的组限都是相互重叠设置的。在采用重合组限场合,为了贯彻“不重不漏”原则,一般采用“上限不在内”统计惯例的处理方式。重合组限既适用于离散变量数据的分组,也适用于连续变量数据分组,在各种场合能够适应各种数据分组的需要,同时有利于组中值的计算,所以重合组限在数据分组中得到了广泛的应用。闭口组限是既有上限又有下限的组限设置

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!