《医学统计学绪论.ppt》由会员分享,可在线阅读,更多相关《医学统计学绪论.ppt(85页珍藏版)》请在优知文库上搜索。
1、第一章第一章 绪论绪论1v第一节第一节 前言前言v第二节第二节 医学统计学的定义医学统计学的定义v第三节第三节 医学统计学的主要内容医学统计学的主要内容v第四节第四节 统计工作的基本步骤统计工作的基本步骤v第五节第五节 医学统计中的基本概念医学统计中的基本概念v第六节第六节 医学统计中的资料类型医学统计中的资料类型v第七节第七节 实验设计的原则实验设计的原则第五节第五节 医学统计中的基本概念医学统计中的基本概念同质和变异总体与样本参数与统计量准确性与精确性误差与错误频率、概率与小概率事件2同质(homogeneity) 是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同。如研究儿童
2、的生长发育,同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。 如:研究兰州市2010年男孩身高的正常值范围。则同质要求同为兰州市、同7岁、同男孩、同无影响身高的疾病一、同质与变异一、同质与变异3在研究事物的形状时同质和异质示例在研究事物的颜色时4变异(variation) 由于生物个体的各种指标所受影响因素极为复杂,同质的个体间各种指标存在差异,这种差异称为个体差异或变异。如同质的儿童身高、体重、血压、脉搏等指标会有一定的差别。 如:兰州市2010年7岁男孩的身高有高有矮。 相同的药方治疗相同的疾病,疗效有好有坏。5v由于医学统计学研究的对象是有变异的事物,因此,用观察12例的结果来推
3、论出一般规律是不恰当的。例如,我们不能用某一健康成人的红细胞数作为一般健康成人的红细胞数;也不能因为用青木香治疗一例高血压患者有效,而断定青木香治疗高血压有效率100%。因为观察例数太少,受个体的偶然因素影响太大。v科学研究的工作,主要任务之一就是要从表现为偶然性的大量数据中,分析出其中必然性的规律。而概率论和数理统计就是要通过这种偶然性去寻找隐藏在其内部的必然规律性。6统计学应用实例v对变异的描述5.135.134.584.314.094.414.334.584.245.454.324.844.975.145.254.894.794.95.094.645.145.464.664.24.213
4、.735.175.795.464.494.855.284.784.324.945.214.685.094.684.915.135.263.844.174.563.5264.054.924.874.284.465.035.695.254.565.534.584.864.974.74.284.375.334.784.755.395.274.896.184.145.224.444.144.434.035.865.125.363.864.685.485.314.534.834.113.294.184.134.063.424.684.525.193.75.514.644.934.934.93.935.0
5、44.74.543.954.44.313.774.165.355.253.715.274.525.214.374.84.753.865.69表1-1 120名正常成年男子的红细胞计数值7结论:1.变异的范围在3.2-6.2 2.有明显的统计分布规律,4.7-5.0的人最多推论:正常男子的红细胞计数的医学参考范围; 如果某人的红细胞数超出了正常变异范围,需找医生做出 医学诊断8二、总体与样本二、总体与样本总体(population):是根据研究目的确定的同质的所有观察单位某种变量值的集合。(1)有限总体:指明确了特定的时间、空间范围的有限个观察单位所组成的总体。(2)无限总体:没有时间和空间范围
6、限制的无限个观察单位所组成的总体9样本(sample):是从总体中随机抽取的部分观察单位变量值的集合。样本的例数称为样本含量(sample size)。注意: (1)总体是相对的,总体的大小是根据研究目的而确定的。 (2)样本应有代表性,即应该随机抽样并有足够的样本含量。10图示:总体与样本11v譬如,要研究西北地区成年人血液中红细胞数的正常值,那么,西北地区全部健康成年人的血液都是我们的研究对象,这称为总体。但是,我们不可能把西北地区所有健康的成年人都进行血液检查,而只能按照一定的科学方法从中抽取一部分人来检查。然后,根据检验结果推论西北地区成年人的血液正常值。v这种从总体中抽取部分个体的过
7、程称为抽样(sampling),所抽取的部分称为样本,如何正确的从样本观察到的情况来推测总体,这就是医学统计学要解决的问题之一。12v从总体中抽取样本,一定要遵循科学原则,一般来说,一个样本应该具有: 代表性(representative) 随机性(randomization) 可靠性(reliability)代表性:就是要求样本中的每一个个体必须符合总体的规定。这就要求对总体有一个明确的规定,这种规定是根据研究目的具体确定的。13v例如,要调查西北地区成年男子的红细胞数的正常值,则我们可以规定研究对象为体温正常、无急性病、无血液消耗性疾病,肝脏在肋缘下0.5cm以内,血红蛋白在12.5g以上
8、,血小板在10w以上的西北地区18岁以上的男子。必须做肝功、X线胸透及某些血项检查等,那么,所抽取的样本中的每一个个体都必须做上述检查并符合上述规定。14v随机性,就是要保证总体中的每个个体有相同的几率被抽做样本。重要的是要避免主客观的“偏倚”。必须指出,随机化抽样绝不等于随意抽样。15 例如:将40只小鼠分为两组。如果闭上眼睛,随意抓取20只作为第一组,留下的作为第二组。 表面上看来是随机的,实际上是不随机的。因为体壮、活泼性强的小鼠很难抓到,故大部分留在了第二组,两组的活泼性是不同的。v可靠性,即对实验的结果要具有可重复性,即由科研课题的样本的结果所推测总体的结论有较大的可信度。由于个体之
9、间存在差异,只有观察一定数量的个体方能体现出其客观规律性。如果根据少数几例就下结论,这种结论的可靠性差,体现不了规律,可能被他人否定。v诚然,每个样本的含量越多,可靠性会越大,但是例数增加,人力、物力都会增加,所以应以足够为准。这就涉及到样本含量的估计问题。16三、参数与统计量三、参数与统计量17总总 体体样本样本随机抽取随机抽取统计推断统计推断(参数估计、假设检验)(参数估计、假设检验)参数参数统计描述:统计描述:统计量统计量18四、准确性和精确性四、准确性和精确性v准确性:指观察值与总体真值的接近程度,说明观察值与真值的符合程度大小;v精确性:指样本中各个观察值间的变异程度,说明观察值变异
10、程度的大小。19五、误差与错误五、误差与错误v误差:实验过程中,由于各种不可控因素所引起的统计量与参数之间的偏差。v错误:指由于人为的粗心大意所引起统计量与参数之间较大的偏差。它是主观原因造成的,是完全可以避免的。20系统误差系统误差v系统误差(systematic error):由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,是观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。 如测量血糖,有斑氏法和葡萄糖氧化法,斑氏法的测量结果偏高易受体内还原性物质的影响。v系统误差是由于实验处理以外的其他条件所产生的带有倾向性的偏差,在某种程度上可控制。21偶然误
11、差偶然误差v在相同条件下,对同一物理量进行多次测量,由于各种偶然因素,会出现测量值时而偏大,时而偏小的误差现象,这种类型的误差叫做偶然误差。v实验结果表明,在确定的测量条件下,对同一物理量进行多次测量,并且用它的算术平均值作为该物理量的测量结果,能够比较好地减少偶然误差。22抽样误差抽样误差v抽样误差(sampling error): 由于随机抽样所引起的样本统计量与总体参数之间的差异以及样本统计量之间的差别称为抽样误差。如样本均数与总体均数之间的差别,样本率与总体率的差别等。v注意:抽样误差是不可避免的。无论抽样抽得多么好,也会存在抽样误差。23六、频率、概率、小概率事件六、频率、概率、小概
12、率事件v1、频率(frequency):一次随机试验有几种可能结果,在重复进行试验时,个别结果看来是偶然发生的,但当重复试验次数相当多时,将显现某种规律性。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种。v在重复多次后,出现“正面”或“反面”这个结果的比例称之为频率。24v设在n次随机试验中,事件A出现m次,则比值: f(A)=m/n=发生次数/试验次数 称为事件A在n次试验中出现的频率v医疗工作中所说的发病率、死亡率、治愈率等都是频率。显然频率具有如下性质: 0 f(A) 125频率的稳定性频率的稳定性v在大量的试验中,一个随机事件出现的频率常在某个固定的常数附近摆动,这是一种统计
13、规律,称为频率的稳定性。频率具有稳定性说明随机事件发生的可能性大小是其本身固有的一种客观属性,因此可以对它进行度量。26实验者 投掷次数 出现“正面”次数 频率Hu Pingcheng 1 1 1.0000Hu Pingcheng 2 0 0.0000Hu Pingcheng 3 2 0.6667Hu Pingcheng 4 3 0.7500Hu Pingcheng 5 3 0.6000Hu Pingcheng 6 2 0.4000Hu Pingcheng 7 4 0.5714 Buffon 4040 2048 0.5069K.Pearson 12000 6019 0.5016K.Pearso
14、n 24000 12012 0.5005 在重复多次后,出现在重复多次后,出现“正面正面” 或或“反面反面”这个结这个结果的比例称之为果的比例称之为频率频率。掷币试验掷币试验272 2、概率(、概率(probabilityprobability)v概率(probability):是描述随机事件发生可能性大小的量值。用英文大写字母P来表示。概率的取值范围在01之间。 0 P(A) 1 随机事件 P(A)=1 必然事件 P(A)=0 不可能事件。28v在大量重复试验中,若事件A的频率稳定地在某个常数附近摆动,则称此常数为事件A的概率。v注意:频率是变动的,而概率则为常数。v当试验次数足够多,频率相
15、当稳定时,可把频率作为概率的近似值。即, 当n 时,f(A) P(A)293 3、小概率事件、小概率事件v统计分析中的很多结论都是。基于一定置信程度下的概率推断,统计学上一般把P0.05或P0.01的事件称为小概率事件。v小概率原理:小概率事件在一次试验中几乎不可能发生。利用该原理可对科研资料进行假设检验。30第六节第六节 医学统计中的资料类型医学统计中的资料类型1. 1. 计量资料计量资料2. 2. 计数资料计数资料3. 3. 等级资料等级资料31数值变量与计量资料数值变量与计量资料 1)1)、数值变量、数值变量(numerical variable) (numerical variable
16、) :变量值是定:变量值是定量的,表现为数值大小,一般有度量衡单位。量的,表现为数值大小,一般有度量衡单位。是用是用仪器、工具或其它定量方法获得的准确定量结果。仪器、工具或其它定量方法获得的准确定量结果。如如: :身高身高(cm)(cm)、体重、体重(kg)(kg)、血压、血压(pa)(pa)、坐高、坐高/ /身高。身高。2)2)、计量资料、计量资料(measurement data) (measurement data) :由一群个体的:由一群个体的数值变量值构成的资料,即一群变量值。数值变量值构成的资料,即一群变量值。 如:长沙市如:长沙市9999年年7 7岁男孩身高值岁男孩身高值(120.2cm,118.6cm,121.8cm120.2cm,118.6cm,121.8cm) ) 1. 1. 计量资料计量资料322.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.502.704.614.752.913.914.594.192.684.524.913.183.684.833.873