《基础统计培训课件.ppt》由会员分享,可在线阅读,更多相关《基础统计培训课件.ppt(44页珍藏版)》请在优知文库上搜索。
1、当今,我们在日常生活中不知不觉地使用统计学当今,我们在日常生活中不知不觉地使用统计学,跟跟统计学有着非常密切的关系统计学有着非常密切的关系q为了预测棒球比赛的胜负,调查各队过去的胜率q搞民意测验预测总统选举结果q根据收集到的气象数据预测未来的天气q报纸、广播的问卷调查对不确定的将来的议事决定提供必要的情报而收集、分类、对不确定的将来的议事决定提供必要的情报而收集、分类、分析资料,以它为基础提示结论的学问。分析资料,以它为基础提示结论的学问。总统候选人的支持率?总统候选人的支持率?q 记述统计学(Descriptive Statistics) 收集的资料(Data)的量庞大 时把资料整理成容易看
2、出资料全体的特征, 作图或作表格的领域。q 推测统计学(Inferential Statistics) 分析资料中内含的情报,对不确定的事实 进行推论的领域。q 选举结果的预测q 消费者爱好调查q 新药品的测试q 经济指标的预测q 对制品寿命试验分析q 为了改善、管理品质的工具q 为了市场战略的广告效果的分析q 地下矿藏的埋藏量估计q 人口普查、市场调查、经营情报分析等敌人的司令部电机收看者电机收看者计算机计算机选举人选举人人群人群=研究组别研究组别计算机计算机 :不良率不良率(%)?收视率收视率 :节目的收节目的收看率看率 (%)?成为关心对象的所有个体的观测值或测定值的集合选举人选举人 :
3、候选人的支候选人的支持率持率 (%) ?成为关心对象的所有个体的观测值或测定值的集合对指定候候人的对指定候候人的支持率支持率(32%,45%,.)(0.05%,1.2%,.)(23%,37%,.)指定电脑的指定电脑的不良率不良率某电视的收某电视的收视率视率调查对象调查对象母集团母集团所有的情报中想所有的情报中想 了解的是?了解的是?有限母集团:有限母集团:无限母集团:无限母集团:人群的范围人群的范围?母集团具有有限个抽样单位母集团具有有限个抽样单位时的情况时的情况例)特定LOT内的制 品的个数母集团具有无限个抽样单位母集团具有无限个抽样单位的情况的情况例)在连续生产工程中出荷的制品个数抽样单位
4、:在母集团中构成全体的各个个体抽样单位:在母集团中构成全体的各个个体为得到母集团的情报,而实际抽取的观测值或测定值的集合为得到母集团的情报,而实际抽取的观测值或测定值的集合研究集团研究集团 = 母集团母集团例例一个选举人的投票结果选举人1, 选举人2, 选举人3电脑1 , 2, 3观看者1 , 2候选人ABA好 坏 好A节目 B节目知道这个程度知道这个程度A候选人 , B候选人 , .特定电脑的良&不良好 , 坏 , .一台节目A节目 , B节目 , .0.31mm 0.57mm每个数据样品样品测定了特定制品长度的数据每个样品的测定值每个样品的测定值0.57mm0.31mm各自的高度为各自的高
5、度为?计量上能测定的品质特性的值计量上能测定的品质特性的值连续性资料连续性资料(continuous data)例) 长度(m , cm) , 重量(kg)存在测定单位存在测定单位这个盒子的重量这个盒子的重量?重量重量 = 25.3333kg又称计量值又称计量值2341可以作为个数数的品质特性的值可以作为个数数的品质特性的值离散形资料离散形资料代表例) 不良品的数, 缺点数可数的可数的1 1张张, 2, 2张张, , . .通常像通常像 0 ,1 , 2 , 3 0 ,1 , 2 , 3 .一样由正的整数构成一样由正的整数构成优劣的数据优劣的数据 , , 级别资料级别资料, ,集团集团化的资料
6、等也看成离散形化的资料等也看成离散形例例) ) 满足度的上满足度的上/ /中中/ /下资料下资料 , , 1/2/3.1/2/3.q 层别层别 : : 说的是将母集团根据某种特性分成几个层说的是将母集团根据某种特性分成几个层q 目的目的 : : 通过比较层别前后的品质集团的品质分布通过比较层别前后的品质集团的品质分布, , 找出对品质引起品质变动的原因或调查散找出对品质引起品质变动的原因或调查散 布的影响程度布的影响程度q 层别方法层别方法 : : 引起品质变动的原因很多引起品质变动的原因很多 , ,所以我们所以我们 根据根据5M5M以认为是重要的原因别将数据以认为是重要的原因别将数据 层别层
7、别q 时间别时间别 : 时间时间 , 日期日期 , 早上早上 , 下午下午q 作业者别作业者别 : 女女 , 男男 , 工作经验工作经验 , 个人别个人别 , .q 机器、设备别机器、设备别 :机种、机种、 型号型号 , 新新 , 旧旧 , .q 工作方法工作方法 / 工作条件别工作条件别 : 工作方法工作方法 , .q 原资材别原资材别 : 供应商供应商 , 购买时间购买时间 , .q 测定别测定别 : 测定设备测定设备 ,测定者,测定者, 测定方法测定方法 , .q 环境别环境别 : 温度温度 , 湿度湿度 , 天气天气 , .两条线体生产同样的电子开关,两条线体生产同样的电子开关, 下面
8、有两条线体生产的数据下面有两条线体生产的数据 . 根根据这些数据据这些数据 , 我们按照不层别或层别进行分析我们按照不层别或层别进行分析.LINE 1 的的DATALINE 2 的的DATA没有层别的情况层别的情况机器机器 3机器 4机器 2机器 1计作业者计项目表示计小计合计划痕拧孔模样日火水木金土日上午下午 上午下午上午下午 上午下午 上午下午 上午下午上午下午合计小计不良品数不良品数构成比率构成比率总效果总效果不良品不良品数数改善前改善前 改善后改善后气 光 异 拱 划 裂 其泡 泽 物 起 痕 开 他 不 良光 气 异 拱 划 裂 其泽 泡 物 起 痕 开 他不良q 母集团母集团(Po
9、pulation) : 成为研究的对象的集团成为研究的对象的集团:q 样品样品(Sample) : 为了得到母集团的情报而实际抽取为了得到母集团的情报而实际抽取的的 观测值或测定值的集合观测值或测定值的集合:q 抽样的理由抽样的理由 费用的问题费用的问题 破坏检查破坏检查 检查设备的不足检查设备的不足 时间上的问题时间上的问题q 误差误差(Error) : 调查母集团全部后得到的特性和样品中调查母集团全部后得到的特性和样品中 得到的特性值之间的差得到的特性值之间的差获取数据的方法获取数据的方法q 取样的错误取样的错误 : 是与样品选择方法关联的误差,是与样品选择方法关联的误差, 偶然误差和偏移
10、属于此类偶然误差和偏移属于此类q 偶然误差偶然误差(Random Error) : (Random Error) : 它是由许多不可控制的它是由许多不可控制的 因素因素 而偶然发生而偶然发生通过增加样品数可以降低偶然误差通过增加样品数可以降低偶然误差q 偏差偏差( (Bias)Bias) :它是由于没能随意抽取样品而产生的它是由于没能随意抽取样品而产生的偏差不能通过增加样品来降低偏差不能通过增加样品来降低通过校正抽样的方法来降低偏移通过校正抽样的方法来降低偏移q 非样品误差非样品误差 : 测定误差占多数,观测(测定)方法的测定误差占多数,观测(测定)方法的 不不 正确引起的误差正确引起的误差:
11、随意抽样随意抽样抽样时包含在母集团的所有成员被选取的概率相同的方法层别(层别(Stratified)抽样)抽样在取样前 , 将母集团按照某种特征分成几个层, 然后在各层通过随意抽样而取样的方法q仪器 : 骰子,番号表 , 乱数表(母集团大时)q特征 : 容易使用 , 使用的次数最多的方法q例) 假设从3条装配线体的制品中选取30个样品,每个线体中各抽取10个制品q层内同质性高而层间异质性高时,它比随意抽样精确度高 群体群体(Cluster)的抽样的抽样当母集团自然地或人为地形成一个集团时 , 在这种集团中随意选取几个样品 ,然后调查所选择的集团的全体的方法q特点当母集团分布广泛时 , 更有效果
12、与其说是提高精确性的方法,不如说是减少费用的方法,如果群体化不好误差就大二阶段二阶段(Two Stage)抽样抽样把母集团分成若干个抽样单位 , 然后在这些单位中选取一部分 , 最选择的各单位又选取一部分的方法q特点如果抽样单位的大小大或者抽样单位内的组成成员同质性高时 ,它比群体抽样更经济系统系统(Systemstic)抽样抽样将样品在空间上或时间上以一定的间隔抽取的方法I willtryto takegoodsample!我要尽量选取好我要尽量选取好的样品的样品q特点如果母集团在空间和时间上不是随意排列 , 而是有倾向或有周期性时 ,使用这个方法有偏差大的可能性从样品中得到什么样的情报从样
13、品中得到什么样的情报?1. (数据数据)分配的中心位置分配的中心位置2. (数据数据)分布的散布分布的散布.3. (数据数据)分布的形态分布的形态.掌握数据的掌握数据的特点特点?q中心位置中心位置 : 它显示出数据们以什么值为中心分布它显示出数据们以什么值为中心分布1. (数据数据) 分配的中心位置分配的中心位置2. (数据数据) 分图的散分图的散布布q散布图散布图(dispersion measure) : 它显示出数据分布的它显示出数据分布的程度程度1. (数据数据)分配的中心位置分配的中心位置2. (数据数据)分配的散分配的散布布3. (数据数据)分配的形态分配的形态以下是制品长度的以下
14、是制品长度的6次测量的结果次测量的结果长度长度(单位省略单位省略)1 1 2 3 1 3这些数据的中心在哪里?这些数据的中心在哪里? 即中心在哪个位置即中心在哪个位置有几种显示中心位置的测量方法!有几种显示中心位置的测量方法!T Th he e c ce en nt t e er r = =r re ep pr re es se en nt t a at t i i o on nv va al l u ue e中心位置中心位置= 代表值代表值平均平均(mean, 算术平均值算术平均值): 平均值=X1+数据之和数据个数X2Xnninixnniixx1 1或xx 是将收集的所有资料相加后以资料的
15、个数除掉后得到的x长度数据的情况.833. 16313211x算术平均算术平均(mean )制品长度的情况下,如果测定其长度得到了17制品长度 (单位省略)1 1 2 3 1 3 “17”(算术)平均值为 4 , 代表值是由不正常的大数字 “ 17 ” 而提高.这种情况下(算术)平均值不能作为一个代表值而起作用为什么它这样提高了 ?怎样才能不受相关庞大数据的影响而找出有代表性的数据方式 1中央值中央值当数据从小到大排列,处于中间位置的数当数据从小到大排列,处于中间位置的数从小到大安排数据.在测定制品 “ 17 ” 的长度之前 : 1 1 1 2 3 3数据个数是偶数个 : 中心位置 = 1与2
16、的(算术)平均 = 1.5测定制品 “ 17 ” 的长度后 : : 1 1 1 2 3 3 17数据个数是奇数个 : 中心位置 = 2是中间吗是中间吗?比起(算术)平均值 , 包含测量数 “ 17 ” 和不包含 “ 17 ”所代表的数据区别不是很大测定制品 “ 17 ” 的长度 : : 1 1 1 2 3 3 17怎样才能求出不受较大数的影响而具有代表性的数据方式 2最频值最频值 =在数据中最频繁出现的数在数据中最频繁出现的数:中心位置中心位置 :频繁出现的数频繁出现的数 = 1在测定制品 “ 17 ” 的长度之前 : 1 1 1 2 3 3 中心位置中心位置 :频繁出现的数频繁出现的数 = 1对于最频值不像算术平均值 , 包含测量数 “ 17 ” 和不包含 “ 17 ”所代表的数据差异不大中间数值 ( 代表性数值 ) 是用来做什么的 ?计量值数据计量值数据如长度 , 重量 . 也就是说 , 是测量材料的一般分散分散的形式 = 对 称的钟形(算术)平均值=中间值=频度数任意代表数都是OK!一般来说 , 具有代表性的数 , 使用 ( 算术 )平均值分布的形态歪斜或偏离的情况时分布的形态歪