《统计学正态分布.ppt》由会员分享,可在线阅读,更多相关《统计学正态分布.ppt(30页珍藏版)》请在优知文库上搜索。
1、2正态分布正态分布3v样本有几个特别重要的数字特征,这些数字是描述样本频样本有几个特别重要的数字特征,这些数字是描述样本频率分布特征的,称之为样本特征数率分布特征的,称之为样本特征数v而在生物统计学中,样本特征数使用频繁的有以下几个而在生物统计学中,样本特征数使用频繁的有以下几个v1.算术平均数,简称平均数( )。4 2.样本方差:样本中各数据与样本平均数的差的平方和的平均数。 3.样本标准差:样本方差的算术平方根做。6 正态分布的概念 如果把数值变量资料编制频数表后绘制频数分布图(又称直方图,它用矩形面积表示数值变量资料的频数分布,每条直条的宽表示组距,直条的面积表示频数(或频率)大小,直条
2、与直条之间不留空隙。),若频数分布呈现中间为最多,左右两侧基本对称,越靠近中间频数越多,离中间越远,频数越少,形成一个中间频数多,两侧频数逐渐减少且基本对称的分布,那我们一般认为该数值 变量服从或近似服从 数学上的正态分布。7 当当n,直方条面积,直方条面积(频率频率)各自的概率各自的概率 然后组距然后组距时,直方条的宽度时,直方条的宽度,直,直方条方条垂直线,各个直方条顶点间的连线垂直线,各个直方条顶点间的连线构成一条光滑的曲线,即:概率密度曲线,构成一条光滑的曲线,即:概率密度曲线,而曲线下而曲线下(直方条直方条)的总面积始终为,在区的总面积始终为,在区间间a,b的概率对应曲线段下的面积的
3、概率对应曲线段下的面积(直方直方条面积条面积) 。8正态分布的概念9 正态曲线的定义:正态曲线的定义:函数函数22()21( )2xfxe ),(x称称f( x)的图象称为的图象称为正态曲线正态曲线式中:= 3.1416 e= 2.71828 x-表示变量 -表示理论平均数 -表示总体标准差 2表示总体方差这个公式表示x变量区间内发生的概率2( ,)XN 11在不变的情况下函数曲线形状不变,若变大时,曲线位置向右移;若变小时,曲线位置向左移,故称为位置参数。12123在不变的情况下函数曲线位置不变,若变大时,曲线形状变的越来越“胖”和“矮”;若变小时,曲线形状变的越来越“瘦”和“高”,故称为形
4、态参数或变异度参数。1301 2-1-2xy-3= -1=0.5012-1-2xy-33=0=1012-1-2xy-334=1=2正态曲线的性质正态曲线的性质(1)曲线在)曲线在x轴的上方,与轴的上方,与x轴不相交轴不相交.(2)曲线是单峰的)曲线是单峰的,它关于直线它关于直线x=对称对称.(3)曲线在)曲线在x=处达到峰值处达到峰值(最高点最高点) (4)曲线与)曲线与x轴之间的面积为轴之间的面积为1(5)当)当 x时时,曲线下降曲线下降.并且当曲线向左、右两边无限延伸时并且当曲线向左、右两边无限延伸时, 以以x轴为渐近线轴为渐近线,向它无限靠近向它无限靠近. (6)当当一定时,曲线的形状由
5、一定时,曲线的形状由确定确定 . 越大,曲线越越大,曲线越“矮胖矮胖”,表示总体的分布越分散;,表示总体的分布越分散; 越小,曲线越越小,曲线越“瘦高瘦高”,表示总体的分布越集中,表示总体的分布越集中.14v而整个正态分布则应该是各区间密度函数的累计积分.v一种连续的分布不可能求某项(某点)的概率,而只能求某个区间的概率.v任意两点x1,x2且(x1x2),X在 (x1, x2)范围内取值的概率P,即正态分布曲线在(x1, x2)下面积2221()212xxxPedx就是由正态分布密度函数2221)(xexf得到标准正态分布密度函数:222)(21)(xexfxuu称为标准正态变量或标准正态离
6、差,服从标准正态分布的随机变量这个变换称为标准化或这个变换称为标准化或u变换变换,由于由于x是随机变量,因此是随机变量,因此u也是随机变量,所得到的随机变量也是随机变量,所得到的随机变量U也服从正态分布,也服从正态分布,因此,由任意正态分布随机变量标准化得到的随机变量因此,由任意正态分布随机变量标准化得到的随机变量的标准正态分布常称为的标准正态分布常称为u分布。分布。2221)(ueuf标准正态分布均具有标准正态分布均具有=0,2=1的特性的特性如果随机变量如果随机变量u服从标准正态分布,可记为:服从标准正态分布,可记为:uN(0,1)2221)(xexf标准正态函数标准正态函数),(x012
7、-1-2xy-33=0=121特殊区间的概率特殊区间的概率:若若XN ,则对于任何实数则对于任何实数a0,概率概率 为如图中的阴影部分的面积,对于固定的为如图中的阴影部分的面积,对于固定的 和和 而言,该面而言,该面积随着积随着 的减少而变大。这说明的减少而变大。这说明 越小越小, 落在区间落在区间 的概率越大,即的概率越大,即X集中在集中在 周围概率越大。周围概率越大。2( ,) ,()( )aaPaax dx (,aa -a +ax=()0.6826,(22 )0.9544,(33 )0.9974.PXPXPX特别地有特别地有22 我们从上图看到,正态总体在我们从上图看到,正态总体在 以外
8、取值的概率只有以外取值的概率只有4.6,在,在 以外以外取值的概率只有取值的概率只有0.3 。2,23,3由于这些概率值很小(一般不超过由于这些概率值很小(一般不超过5 ),通常称这些情况发生为),通常称这些情况发生为小概率事件小概率事件。x如果原总体的平均数为如果原总体的平均数为,标准差为,标准差为,那么样本平均数,那么样本平均数抽样总体:抽样总体:平均数为:平均数为:标准差为:标准差为:为样本平均数抽样总体的标准误差简称为标准误,标为样本平均数抽样总体的标准误差简称为标准误,标准误表示平均数抽样误差的大小,反映样本平均数与准误表示平均数抽样误差的大小,反映样本平均数与新总体平均数之间的离散
9、程度。新总体平均数之间的离散程度。 xxxnx抽样的样本平均数的平均数等于总体平均数抽样的样本平均数的平均数等于总体平均数,即即抽样的抽样平均数的标准差等于总体标准差除以抽样的抽样平均数的标准差等于总体标准差除以样本单位数的平方根。即样本单位数的平方根。即4. t-分布(不要求)分布(不要求)设有服从正态分布的随机变量设有服从正态分布的随机变量x,正态分布的标准化公式为:正态分布的标准化公式为:xu 对于总体方差对于总体方差2已知的总体,根据公式可以知道已知的总体,根据公式可以知道在某一区间内在某一区间内出现的概率,公式为:出现的概率,公式为: xxuxxuxunx附:附:服从标准正态分布服从
10、标准正态分布假如假如2未知,而且样本容量又比较小(未知,而且样本容量又比较小(n30)时:)时: 标准化公式可变换为:标准化公式可变换为:xSxt它不再服从标准正态分布它不再服从标准正态分布T分布类似于正态分布,也是一种对称分布,它只有一个参数,就是自由度所谓自由度是指独立观测值的个数,应为计算标准差时所使用的n个观测值,受到平均数x的约束,这就等于有一个观测值不能独立取值,因此自由度为df=n-1服从具有服从具有n-1自由度自由度t-分布分布T分布的密度函数为:分布的密度函数为:T分布的计算已列成表格分布的计算已列成表格,应用时可根据需要由应用时可根据需要由t值值,自由度查概率自由度查概率;
11、也可以由概率也可以由概率,自由度查自由度查t值值.2(1)/2(1)/2( )1+, ( /2)n nxf xxnn n /2 o xtn (x) t /2(n) t /2(n) /2则称这个数则称这个数 c 是自由度是自由度n 的的 t 分布的双侧分布的双侧 分位点分位点 (数数) ,记成,记成 t / 2 (n) 。对称分布的双侧对称分布的双侧 分位点就是上侧分位点就是上侧 /2 分位点分位点 /2 o x (x) u /2 u /2 /2如:双侧如:双侧 0.05 分位点分位点 u0.025 = 1.96 (1)t分布为对称分布,关于分布为对称分布,关于t = 0对称;只有一个峰,峰值在
12、对称;只有一个峰,峰值在t = 0处;与标准正态分布曲线相比,处;与标准正态分布曲线相比,t分布曲线顶部略低,两分布曲线顶部略低,两尾部稍高而平尾部稍高而平(2)t分布曲线受自由度分布曲线受自由度df 的影响,自由度越小,离散程度越大的影响,自由度越小,离散程度越大(3) t分布的极限是正态分布。分布的极限是正态分布。df越大,越大,t分布越趋近标准正分布越趋近标准正态分布态分布 当当n 30时,时,t分布与标准正态分布的区别很小;分布与标准正态分布的区别很小;n 100时,时,t分布基本与标准正态分布相同;分布基本与标准正态分布相同;n时,时,t 分布与标准正态分布与标准正态分布完全一致分布完全一致