《[整理]二分类与多分类Logistic回归模型..docx》由会员分享,可在线阅读,更多相关《[整理]二分类与多分类Logistic回归模型..docx(14页珍藏版)》请在优知文库上搜索。
1、二分类1.ogistic回归模型在对资料进行统计分析时常遇到反应变M为分类变旧的资料,那么,能否用类似于雄性回归的模型来时这种资料进行分析呢?答案是肯定的,本章将向大家介绍对二分类因变型进行回打建模的1.ogistic回打模型.第一节模型简介一、模型入门在很多场合下称能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某衲也者结局是否径.愈、调性对象是否为某商品的潜在消费者等.对于分类资料的分析,相信大家并不陌生,当要考察的影响因索较少,且也为分类变录时,分析者常用列联表(ConIingenCyTable)的形式对这种资料诳行整理,并使用z检骗来进行分析,
2、汉存在分类的混杂内索时.还可应用Mantd-HaCnd检验进行统计学检验.这种方法可以很好地控制混杂因素的影响.但是这种经典分析方法也存在局限性,首先它虽然可以控制若干个囚素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否存在交互任用;其次,该方法对样本含业的要求较大,音控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中领数Ul能很小甚至为0.将杼致检脸结果的不可先,最后,/2检骁无法时连续性自变成的影响进行分析,而这将大大限制其应用范用,无疑是其致使的缺陷。那么,能否建立类似于线性回归的模型,对这种数据加以分析?以用简单的二分类因变量为例来加以探讨,为了讨论方便,常定义出
3、现阳性结果时反应变量取值为1.反之期取值为0.例如当领导层有女性职员、卜.闲、裕愈时反应变呆.V=I,而没有女性职员、未下雨、未痊愈时反应变量.y=0记出现阳性结果的频率为反应变fitP(y=Do首先,I可颐一下标准的税性何归模型:y=+zu+zuw如果对分类变fit直接拟合.则实质上拟合的是发生概率,参照前面线性回归方程,很自然地会想到是否可以建立下面形式的网归模型:P=+力内+A1显然,该模型可以描述当各自变量变化时.因变盘的发生概率会怎样变化,可以满足分析的基本要求.实际上,统计学家In最口也在朝这一方向努力,并考虑到最小二乘法拟合时遇到的各种问册,对计算方法进行了改迸,最终提出了加权以
4、小:乘法来对该模型进行拟合,至今这种分析思路还偶有应用。既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原因在于有以下两个问时是这种分析思路所无法解决的:(1)取伯区间;上述模型右侧的取伯莅困,或者说应用上述模型进行预报的范国为整个实数集(-8,+8),而模型的左边的取值范围为0l,二者并不相符.模型本身不能保证在自变量的各种组合下因变量的估计值仍限制在0-1内,因此可能分析者会得到这种荒唐的结论:男性、:如岁、病情较轻的患者被治愈的概率是208!研究者当然可以将此结果等价于10的可以治愈,但是从数理统计的角度讲,这种模型显然是极不严迸的,(2)曲线美联:根据人城的观察
5、,反应变量P与自变量的关系通常不是出城关系,而S型曲线关系.这里以收入水平和购车概率的关系来加以说明当收入非常低时,收入的增加而购买概率影响很小:但是在收入达到某一阀他时,购买概率会随着收入的增加而迅速增加;在购买概率达到一定水平,绝大部分在该收入水平的人都会购车时,收入增加的影响又会逐渐减弱,如果用图形来表示,则如图I所示。显然,城性关联是线性回归中至关取要的一个前提假设.而在上述模型中这一假设是明显无法满足的.图1S型曲戏图以上问题促使统计学家们不得不寻求新的解决思路,如同在曲线回归中,往往采用变用变换,使御曲线直线化.然后再进行直线回归方程的拟合.僚么,能否考虑对所预测的因变IN加以变换
6、,以使得以上矛盾如以解决?基于这一思想.又有一大批统计学家在寻找合适的变换函数,终于,在1970年,COX引入了以前用于人口学领域的1.ogin).成功地解决了上述问卷,那么,什么是1.ogit变换呢?通常的把H;现某种结果的概率与不出现的概率之比称为比(git变换.下面来看一下该变换是如何解决上述两个问题的,首先是因变域取值区间的变化,概率是以0.5为对称点,分布在01的范围内的,而相应的Iogit(P)的大小为:乃=0logit(-)=ln(0/1)=n=0.5logit(111)=ln(0.5/0.5)=0-=1logit()=ln(l0)=+oo显然,通过变换,1.OgiI(7)的取值
7、范树就被扩展为以0为对称点的整个实效域,这使得在任何自变址取优下,对灯值的预测均有实际意义.其次大量实践证明,1.Ogit(万)往往和自变所呈级性关系,换吉之,概率和自变求间关系的S形曲线往往就符合logic函数关系,从而可以通过该变换将此战直规化,因此,只的要以1.Ogil(乃)为因变IE建立包含P个自变量的IogiSliC回归模型如下:IOgil(P)=4+48+.+4/以上即为Iogisiic回归模型。由上式可推汨:p=ex世风+6X+Bp)JP=I1+cxp(A+z+凡XP)1+exP(A+X+3%)上面三个方程式相互等价。通过大量的分析实践,发现IOgiSiiC回归模型可以很好地满足
8、对分类数据的建模需求,因此目前它己经成为了分类因变量的标准建模方法。通过上面的讨论,可以很容易地理解二分类IOgEiC回归模型对资料的要求是:(I)反应变豉为二分类的分类变限或是某事件的发生率.(2)自变瞅与1.OgiH不)之间为战性关系,(3)残差合计为0,且眼从二项分布,(4)各观测值间相互独立.由于因度量为二分类,所以I。妙SUC回归模型的误差应当版从二项分布,而不是正杳分布因此,该模型实际上不应当使用以前的最小课法进行多数估计,上次均使用量大似然法来解决方程的估计和检险问题二、一些基本概念由于使用了Iogil变换,1.OgiSIiC模型中的参数含义略显复杂,但有很好的实用价值,、为此现
9、对一些基本概念加以解修。1.优势比如前所述,人们常把出现某种结果的概率与不出现的概率之比称为比值ItPPOddS=C两个比值之比称为优势比(iMsRatio,简称0/?首先考察Cw的特性:I-P若Pl02,则OddSI=B=odds、1l-AjI-P2若PlP2,则odd=一/一=oddsiIll2若/1=P2,则odds.=odds、I-Rl-*显然,OK是否大于I可以用作两种情形下发生概率大小的比较.2.1.ogistic回归系数的鹿义从数学上济,夕和多元回归中系敷的解狎并无不同,代表改变一个单位时I。Rit(P)的平均改变量,但由于OddS的自然对数即为IORit交换,因此1.ogist
10、ic回归模型中的系数和OR有着直接的交换关系,使得IRgkUC回归系数有更加贴近实际的解狎,从而也使得该模IWW了广泛的JUB.卜面用一个实例加以说明:以4格表资料为例具体说明各回归系数的意义:表14恪表资料治疗方法_(real)治疗结果(outcome)合计治愈率治愈=1)未治愈1.ogistic过程:i1.ogisticRegression冈图21.ogiSliC回归主对话框本例中涉及的对话框界面如图9.2所示.注意对话框中都有一个以前未出现过的a*b按钮、用于纳入交互作用,只要先将相应变量选中,然后单击此按钮,相应的交互项就会被纳入模型。本例因较为简单,未用到此功能,性别虽为分类变革,但
11、仅有两个取值水平,所以可以百.接引入模型,结果仍然可以被正常解徉.结果如下:首先Jft出分析中使用的记录数汇总,此处略.衣2DependentVariableEncodingOriginalValueInternalValue卡思橘忠病01表2为因变;*的取值水平编码,SPSS拟借模型时蚊认取值水平福的为阳性结果,时广本例来讲,拟合的模型是Iogit(Pty=患物).随后进行模型拟合,首先给出的是模型不含任何自变量,而只干j常数项(即无效模型时的输出结果,标题为:-BIockO:BeginningBIock.此时的模型为:IOg()=4=003,exp(A)_CXP(OJ03)_05257l+exp()I+exp(O.lO3)表3ClassificationTable*bObSerVedPredicted是否患冠心病Percentage未患病患病CorrectStep0未患病是否患冠心病037,0