《处理效应异质性分析 机器学习方法带来的机遇与挑战.docx》由会员分享,可在线阅读,更多相关《处理效应异质性分析 机器学习方法带来的机遇与挑战.docx(17页珍藏版)》请在优知文库上搜索。
1、处理效应异质性是定量社会科学关注的或点。本文以因果随机森林与贝叶斯段加回归树为例,指出以算法为导向的新兴分析手段可以克服模型形式和变量选择的限制,并号虑变量间各种交互关系。因果陵机森林与贝叶斯叠加回归树分别体现r“匹配”和“模拟”的分析逻辑,以帮助研究者勾勒出异侦性处理效应的经验分布并探索该异质性的决定因素。然而,参数设定差异和算法差异都会损害处理效应异质性分析结果的稳健性。、问题的提出社会科学经验研究往往围绕变量之间的关系展开。随着因果推论方法在社会科学领域内的逐渐普及,定量社会科学研窕逐渐从强调相关关系转向强调因果关系(胡安宁,2012;Morgan&Winship,2015).除了常规的
2、平均因果效应之外,越来越多的学芥开始关注处理效应的异版性(谢宇,2(X)8)。这种对于异质性的考察有其社公学基的.一方面,大知的社会学中乂理论都是围绕特定人群的细分展开的,凸显了个体间的异质性。这也就不难理解,在验证和推进这些理论的时候,社会学研究者需要关注处理效应的差异。另一方面,从实践的角度出发,大全的以政策分析为导向的研究关注特定人群之间有差异的处理效应(例如:Heckman&Vyi1.acih2(X)1;Heckman&Garcfa,2017).这与医学研究中日渐兴起的针对特定类型患者的“精准医疗”存在异曲同工的分析逻辑。显然,这类实践导向的分析要求研究者重视处理效应在不同人群之间呈现
3、出的异质性。传统的回归模型通过交互项来分析处理效应异质性(Aikeneta1.,1991).之后方法论的发展则日渐依托了倾向值(propensityscore)的估算,将处理效应异质性问题转为考察处理效应如何随若个体倾向值的变化而变化(XiC&Wu.2005;Xiccta1.,2012:Canicirocta1.,2010:吴晓刚,2008).这些分析方法虽然展示了处理效应异域性估计的多种策略,但各有其不足之处。随着机器学习方法与社会科学因果推断分析的日渐结合,一个前沿的方法论发展方向是使用基T兑法的技术手段来考察处理效应异质性。在此背景卜.,本文希望能够通过系统的梳理,展示社会科学研究在考察
4、处理效应异J贞性时从传统的线性模型到新近的机器学习算法的方法论发展脉络,特别关注不同方法之间的优缺点。在此基础上,本文选取/因果随机森林Ccausa1.randomforests)和贝叶斯强加回归树(Baycsianadditiveregressiontrees)两个以非参数树模型”算法为基础的分析技术,具体介绍其算法原理以及如何克服传统处理效应异域性分析的诸多限制。与此同时,本文也反思了以算法为基础的新兴分析技术可能带来的潜在问题,如因参数设定差异和算法差异而损害处理效应异质性分析结果的稳健性。这种分析异质性处理效应时出现的和健性缺失也可以被称为“异质性的异质性问题。最后,我们以分析中国精英
5、大学教育回报的异质性模型为例,来展示这些方法论的优势和不足。二、处理效应异质性的传统分析:方法概观(一)传统回归模型的交互项分析对于处理效应异质性的探索,传统的分析手段是在某个回归模型中增加交项(Aikene1.a1.,1991)。如果用Y表示因变量,T表示处理变量,C表示某个可能带来处理效应异历性的变量,则交互项模型如模型(1)所示,其中我们关心的系数是03。交互项模型虽然使用广泛,但是相关的方法论研究时其是否能够准确呈现处理效应异质性一直有所质疑(HainmUd1.CreI让,2019)。疑问主要来自两个方面:其一,能够带来处理效应异质性的因素C可能有很多,但是在给定数据的情况下,我们不可
6、能无限制地在模型中添加大盘的交互项。因此,对于交互项的设置便具有一定的主观性甚至随意性.其二,交互项的具体形式(变量C的二次方、三次方项,或者三个甚至更多变量交互的情况)往往也是研究者主观设定的,而这种设定并不必然符合数据生成过程的基本特征。交互关系的更杂性通常不会在常规的双变量交互项分析中涉及。(二)以倾向值为导向的处理效应异质性当倾向值方法逐渐引入定量社会科学研究以后,对于处理效应异质性的考察便逐渐以倾向值为导向展开(Xie&Wu,25:Xiccta1.,2012).所谓倾向值,是指个体接受处理变量某个取值水平影响的概率。假设所有的混渤变量(confoundingvariab1.es)构成
7、矩阵C,那么,倾向值的估计值就是其中y为矩阵C的系数向量。基于帧向值的此种定义,所谓以顺向值为导向的处理效应异质性分析,就是看处理效应如何随着倾向值取值的变化而发生变化。以倾向值为导向的处理效应异质性分析有其独特的优点。例如,这条路径不再看某个特定变量C的作用,而是将所有的C降维为个倾向值Z,进而看顺向值如何异质化处理效应。从这个意义上讲,这一方法克服f上述回归模型交互项的第一个局限。此外,由于处理效应和倾向值构成了一个二维体系,对于它们之间关系的考察也可以突破原有的线性设定,进而采用一些半参数甚至非参数的平滑方法,以应对可能的非线性关系(Kee1.e,2008).这样,回归模型交互项分析的第
8、二个局限便被克服r.具体而言,谢宇和其合作者提出了三种以帧向值为导向的处理效应异质性的分析于段(Xieeta1.,2012:Zhou&Xie,2020)一种被称为细分一多层次法(stratification-mu1.ti1.eve1.method).意指将估知H的倾向值分成不同的取值区间,然后在每个区间内估计处理效应,最后看多个区间的处理效应皇现出何种异质性的变异。第二种方法被称为匹配一平滑法(matching-smoo1.hingmc1.hod),即先通过倾向值匹配,计算每个匹配对(pair)的处理效应,之后,对于这一系列的基于匹配对的处理效应进行曲线拟合,号嚓处理效应如何随着顺向值取值的变
9、化而变化第:种方法被称为平滑一差值法(SmoOIhing-differencingmeihod).与第二种方法相比,这一方法的特点在于,先分别对实验组和控制组的个体取值Y随着倾向值的变化而变化的模式进行曲线拟合,之后再看两条曲线之间的差值,从而得到处理效应异质性的估计。谢宇等人所提出的这一系列以倾向值为导向的处理效应异质性分析方法和经济学家詹姆士,海克咙提出的边际处理效应(margina1.treatmenteffect)有异曲同工之妙(Canicirocia1.,2010),关于边际处理效应方法,可参阅胡安宁(2015)、周翔和谢宇(Zhou&Xie,2019)的研究,这里不再赘述。以倾向值
10、为导向的处理效应异质性分析虽然突破回归模型交互项的一些局限,但也有自身的问愿。首先,倾向值的估计存在着模里不确定性和系数不确定性问题(胡安宁,2017).其次,将各种混淆因素总结为一个倾向值Z的做法虽然通过降维简化了分析,但是我们也无法具体考察究竟是哪个混沿变量C起到了对处理效应进行异质化的作用.的后,无论谢宇还是海克曼的方法,都重在描述处理效应随着帧向值的取值变化而如何变化,但未能分析是什么因素造成了此种处理效应异质性。三、以算法为基础的机器学习新工具:因果随机森林与贝叶斯叠加回归树按照统计学家利欧布密曼(1.eoBreiman)的经典划分(Breiman12(X)1).无论是线性回归模型的
11、交互项,还是以帧向值为导向的处理效应异质性分析,都属于以数据随机生成(StOChaStiCgeneration)为分析基础的模皇。这一分析范式需要对统计模型有清晰的设定。与之相应,分析的关注点则放置于模型提供的特定统计量之上(如特定的系数).与之相比,以算法为基础的分析工具则对数据生成过程存而不论,转而通过在数据上应用特定算法,让数据“说话”,以呈现某种关联性。如果说早期的算法模型因为用力和数据量的限制尚不为社会科学研究界所熟知,那么当我们有足够的计算资源来针对数据使用比较纪杂的算法时,我们则不得不正视算法模型在社公科学领域内可能扮演的重:耍角色.这方面,因果推断技术与机耦学习算法的结合正是当
12、下社会科学方法论发展的前沿方向,在已有的一些探索的基础上,(例如广义登加模型genera1.izedadditivemode1.ing、部分线性模型partia1.1.inearregression等),涌现了系列新的适用于因果推断的算法模型。本文针对因果处理效应的异历性,选取两个以“树模型算法为基础的分析工具:因果随机森林(A1.hCyCIa1.,2019;Wager&Athcy.2018)和贝叶斯累加回归树(ChiPmanCIa1.,2010;Hi1.1.cta1.,2020).由于这两个方法都是以树模型为基础展开的,这里首先对树模型进行概览性的介绍。(一)树模型与随机森林概览树模型是一系
13、列以数据细分为博础的兑法模型的统称(BrCimanC1.a1.,1984)。如果分析的因变量Y为分类数据,通常称之为决策树,而如果分析的Y为连续型变量,则称之为回归树。为了表述方便,这里统称为树模型。一个树模型如图I(八)所示,对下数据中的所有样本,依据某种变量的取值标准,进行不断的细分,从而构建一个树形模型(这里用h指代某一树模型)。例如,我们首先以变量C1.为基础,以取值0.5为界,如果大于0.5,则将数据分配分到左边个树枝,反之则分到右边。在右边这分支下,依据C2来进行进一步细分,C2大丁0.5则到左枝,否则到右枝.究竟在分叉处选取哪个变量以及采用该变量什么数值为界进行细分,都有相应的F
14、算标准(如信息增益比、Gini系数,等等)和算法规则,这里不再赘述。每个树枝的结尾视为一个节点。如果无法进步细分(例如,节点内的人的Y取值已经比较近似,或者没有足够多的人进行进一步的细分),则每个节点内部所有人丫取值的均值视为符合该节点特征的所有人的Y的估计值。例如,对于CI0.5的人,估计值为h1.,对于C1.O.5的人而言,估计值为h2.最后对于C1.0.5和C20.5的人,估计值为h3.这种对于数据的树状划分等价于图1(八)的右图。图I树根至和勃机森林示例树模型的问麴在于这棵树可能会很长,从而带来数据的过度拟合问题。为了解决这一问题,一个常用的技术是随机森林鸵法,这一郛法的逻辑如图I(b
15、)所示。随机森林涉及两个随机。个随机是从分析对象总体中采用自助法(bootstrap)抽样得到多个子样本(假设共M个子样本),之后在每个子样本中拟合树模型。另一个随机是在每个树模型的分叉点,采用的分叉变地是从所有的备选变量中随机选取产生的。例如,在图1(b)中,第一个树模型用到的变量是CI和C2,第二个树模型用的是C6和C7,第m个树模型用的变量是C1.和C5。在得到M个树模型之后,对于某个个体,基于其一系列的背景特征,我们可以得到M个对于其丫值的估计值。假设某个个体的取值为C1.=O6C2=O.2,C5=O.3,C6=0.8,C7=0.2,C在第一棵树卜:其丫的估计值为1.1.,第二棵树下的
16、估计值是21,第m棵树下的估计值是m3.如果丫是个连续型变量.我们就可以计算这m个估计值的平均值,从而得到对丁Y的整体估计-u-如果Y是一个分类变量,那么我们可以采用投票的方式(例如服从多数原则)决定丫的整体估计值(二)因果随机森林因果随机森林可以看作是随机森林算法在因果推断问题上的直接应用(Atheyeta1.,2019;Wager&Athey.2018)。这方法的基本目的是最大化处理效应在不同树模型节点之间的变异.具体而言,因果随机森林和传统随机森林方法相比,在节点分叉、模型拟合和处理效应估计三个方面都有臼己的特点。节点分叉。我们用P表示母节点,其分叉为左右两个子节点C1.和C2。那么,在传统的树模型中,我们判断是否维续分叉的依据可以是分叉后每个子节点内部时Y的估计误差.例如,假设两个子节点C1.和C2时Y的估计值分别为UAC1