计算扎根：定量研究的理论生产方法.docx

资源描述

《计算扎根：定量研究的理论生产方法.docx》由会员分享，可在线阅读，更多相关《计算扎根：定量研究的理论生产方法.docx（9页珍藏版）》请在优知文库上搜索。

1、计算扎根：定量研究的理论生产方法引言依托于客观数据和模型的社会学定量研究对长期根植于逻辑思辨和历史情境的社会学传统研究方法形成了极为重要的补充，伴随着大型社会调查的开展和数据模型的普及，已成为社会学研究的重要范式。定量研究原本只是对数字数据进行分析研究的统称，但伴随着范式的固化，特别是定性和定量研究的二元分立，学术界逐渐将量化研究自我限定在以演绎法为逻辑、以理论验证为目的、以统计推论为手段的单一面向，不觉中忽视了数据和模型对于直接启发理论的价值、归纳逻辑对于定量研究的应用可能性。有没有一种新的逻辑路径和模型，能让定量学者不仅能进行“后置”的科学检验，也能利用数据资料直接助产理论假说？随着大规模

2、社会调查数据的日益丰富和机器学习等方法在社会学中的应用，我们已经发现了这种可能。在本文里，我们将提出一种基于大量数据和机器学习模型的量化理论生产方法：对于既定的Y和大量的解释变量X,通过监督学习方法对一系列X对于Y的预测能力进行量化分析。利用因果关系和可预测性之间的逻辑关联，我们可以对具有强大预测力的诸多X进行挖掘和筛选，从而直接助产理论假说，为Y寻找到潜在的具有理论价值的新X,进而帮助社会学家生成、发展和修正理论。这一方法虽然是典型的计算社会科学方法，但其逻辑起点和扎根理论的核心原则有异曲同工之妙：打破理论的先入为主，在不做任何理论假说前提的条件下扎根于数据本身，从而打破“演绎一验证”的逻辑

3、，打通经验研究到理论研究的生成路径。因此，我们将其命名为“计算扎根二证伪的限度：传统定量研究的理论生产瓶颈近四十年来，定量社会学研究的基本模式是基于调查问卷数据，采用多元模型回归的方法，对解释变量是否和被解释变量存在关联或因果进行统计推断。彭玉生曾形象地把定量研究比作“洋八股文”，也即国内外主流社会科学刊物，都采用了比较标准化的“模板式”格式，按照问题、文献、假设、测量、数据、方法、分析、结论八个部分各司其职，环环相扣。尽管相关的环节可以合并或细化，但其基本思路就是对所提出的零假说进行证伪。但检验理论并非科学研究的全部工作。华莱士在社会学中的科学逻辑中提出“科学环”概念，指出社会学研究是包括理

4、论建构和理论检验的循环往复、螺旋上升、永无止境的过程。很明显，假设检验的定量范式都集中在科学环的右半部分。从理论建构到理论检验本是一项科学研究的完整路径，但伴随着定量和定性的分野，理论建构似乎成了定性研究的专属使命，而定量研究日益将理论验证奉为圭臬。这导致了定量研究在科学发现之旅中的后置化甚至缺席：量化研究使得现有理论更为精致化了，但却很少产生新的理论建构。不得不承认，量化学者在实际的研究过程中都曾经得到过数据本身带来的启发，只不过很多研究者在从数据中得到新发现后并不会按照真实的研究过程来表述自己的研究，而是通过文献梳理的方式把自己的发现“装扮”成已有的理论假设，然后再按照假设检验的逻辑来证明

5、它。实际上，正如默顿所说，经验研究远远超出检验理论的被动功能，它不仅仅是证实或反驳假设，在塑造理论的发展上至少执行着四个功能：创立、修订、转变和澄清理论。计算扎根：用机器学习助产理论计算扎根的思路是打通从数据到理论的“逆向”路径，借助机器学习的预测能力和可解释的归因算法，基于因果是可预测性的充分不必要条件这一规律，实现用数据来直接生成关于既定因变量的机制理论。计算扎根的基本步骤可以由以下六个环节组成:第一步，制定研究问题。根据社会调查问卷数据指标，结合研究兴趣和需要来确定研究对象Yo第二步，准备高维数据。社会调查数据往往是高维的，变量有上百个甚至更多。这些大量的指标，每一个都可能是潜在的Y的因

6、，也即蕴含了扎根结果的可能性。第三步，开展社会预测。使用监督学习的方法训练Y的预测模型。只要能达到相对较好的预测效果，不必拘泥于算法是否复杂以及是否可解释。第四步，比较预测能力。依赖机器学习模型的可解释性算法，对预测生成的黑盒模型进行归因分析，根据X对Y的预测力排序寻找可能的因。其基本思路是：打乱某些特征X是否影响模型预测的准确率，改变特征将如何影响预测结果。第五步，寻找潜在理论。根据一组按照预测力排序的X,寻找以往研究未曾涉及的社会关联。可以依据潜在关系模式将它们与既有研究比照，验证或澄清理论；亦可以对相似的解释项进行归类，抽象出概念或归纳理论命题。第六步，补充交叉验证。验证计算扎根结果的稳

7、健性和理论假说的适用性。尝试使用不同数据、其他机器学习和归因算法对同一个因变量进行计算扎根，也可以对生成理论推导出的其他假说进行再检验，相互验证完成科学环闭环。计算扎根的逻辑基础作为理论生产方法的计算扎根理论，有着清晰的逻辑基础。对于计算扎根理论而言，其逻辑前提主要是两个方面：1.扎根理论的归纳逻辑。扎根理论主张以逐级归纳的方法从经验材料中直接创造出理论，再将其与现有理论和研究相比照。避免在研究开始前就有先入为主的观念或猜想是确保“扎根”有效的重要原则。值得一提的是，创立者格拉泽强调扎根理论是一种普适的方法论，既适用于质性资料，也适用于定量数据，两者对理论的产生和验证都是有帮助的。但随着扎根理

8、论的实际发展,人们发现它似乎还是更适合做质性研究。其原因不难理解：质性资料的深度和可解读性往往更有利于运用社会学想象力直接提出理论假说，而定量数据作为一种数值指标具有高度简化的抽象特征，其内在的数理统计关联难以通过直观的方式加以发现。2.因果关系的可预测逻辑。社会现象之间的可预测性和因果机制是两个不同但又高度关联的范畴。计算扎根方法的逻辑基础之一就是充分地运用预测和因果之间的重要关系，也即因果是预测的充分而非必要条件。这意味着，如果一个X可以很好地预测Y,那么X的确可能构成Y的原因。虽然这一关系只是可能而非必然，但其构成因果的概率总比不具备预测性的关联要高得多。在社会学家逐渐把学科旨趣压缩到两

9、两变量的分析而放弃社会预测的大背景下，以机器学习的预测力来推动理论的生产对于定量研究具有重要意义。计算扎根的方法基础计算扎根允许几十、上百甚至上千个变量的互动，其通过对算法模型的相关特征值的预测力进行比较，比通过个人思维灵感来发现理论的过程要稳定和可靠得多。其具体的方法实现过程包括社会预测和预测力比较两个方面。1.社会预测：运用监督学习的算法模型拟合著名统计学家布雷曼曾将统计建模方法分为两种取向：一是数据模型，二是算法模型。数据模型事先假定数据服从某个函数分布f(x),然后对事先假定的f(x)的参数进行拟合估计。当前社会和行为科学中广泛采用数据模型的思维方式，强调理想化模型中的特定系数是否具有

10、统计显著性以及影响的方向。但数据模型存在两个明显的问题：第一，为拟合特定参数模型，数据必须满足一定的假定。而现实社会复杂多样，要求数据满足严格假设未免过于苛刻。第二，结论是关于模型的机制而非关于事实的机制。将简单的参数模型强加于复杂系统生成的数据之上，会导致准确性和关键信息的损失。另一种取向，算法模型不假定数据的任何分布特征，旨在找到一个函数g（X）,通过g（X）可以对Y进行预测。算法模型往往采用非线性、非参数方法，通过一个或多个超参数来调整模型的复杂性。其对数据复杂性的尊重使得被分析的数据可以服从任意分布，而不需要满足任何假设条件。我们认为，这种解放将至少从两个方面提高生产理论的能力。第一，

11、满足真实社会过程中的非线性数据关系。大部分机器学习拟合过程不需要满足既有的函数设定，而是以追求预测准确性为最高宗旨。第二，满足真实社会过程中的高维复杂数据关系。通过在单个学习模型中同时考虑数千个不同的因素和各种复杂的交互作用模式，纳入更多潜在的“因”，发现新的解释维度的可能性也就更大。2.预测力比较：解决黑箱模型可解释性的归因算法尽管机器学习打破了以往统计模型的种种预设限制，带来了数据生产力的解放，更好地模拟了事物的真实状态，但它最广为诟病的问题则在于其“黑箱过程”导致无法解释。但较新的机器学习文献中越来越多的证据表明，预测准确性和可解释性之间的矛盾并没有想象的那么严重。随着对复杂模型可解释性

12、的迫切需求，越来越多“拆解黑箱”的方法得以发明且获得了成熟应用，如基于联盟博弈理论分配变量贡献的SHAP方法；通过比较置换某列特征前后模型预测误差的变化来衡量该特征的重要程度的置换特征重要性方法；通过对一个特征反复修改，建构出本不存在的事实状态并再次预测，比较前后预测结果差异的部分依赖图方法；等等。这些方法的创立和成熟为重新平衡预测的准确性与可理解性提供了可能，为计算扎根奠定了坚实的方法基础。计算扎根的实操和标准：理论生产示例我们以“主观幸福感”为例展示计算扎根如何助力于幸福感理论的启发和澄清。本案例使用的数据为中国综合社会调查（CGSS）2017年数据，本研究的被预测变量为“总的来说，您觉得

13、生活是否幸福”，预测变量为问卷中除被预测变量以外的其他所有变量。分析结果显示，问卷的所有变量中，对幸福感预测最大的特征是公平感，SHAP值约为L4,其次是健康程度。为便于归纳,我们按照变量含义的相似性将幸福感最主要的影响维度归纳为五个方面。（1）主观认知：公平感、信任感；（2）主客观地位:自我阶层定位、10年后自我阶层预期、当地家庭阶层定位、自评社会经济地位、住房面积；（3）人口学和健康因素：健康程度、出生年、健康影响；（4）婚姻家庭：配偶同住、配偶工作小时、配偶年收入、夫妻应分担家务；（5）生活方式：休息放松、看电视、听音乐、每周工作时间。理论上我们可以针对所有范畴进行层层归纳，抽象出更高层

14、次的概念和关于幸福感的总体理论模型;也可以针对以往研究未曾关注的某一变量或某一具体维度作更深层次的挖掘和比较，探寻共同因素和共变规律，归纳出微观层面的理论假说。根据分析计算扎根结果我们发现，“配偶每周工作小时”这一变量排在预测的第9位，但既往研究却没有充分关注。我们将两者的关系表述为一个新的经验命题：配偶工作时间会影响另一半的主观幸福感。由于命题还没有在现象和本质之间建立起一种基于因果的理性认识，我们可以进一步通过虚假相关的排除和因果关系的确立、相关范畴的归纳与概念提炼、与既有理论的对话和逻辑推导、总结理论命题并使用其他数据方法进行再验证等步骤相互补充，以填补命题到理论的鸿沟，并增加理论的科学

15、性。除了新理论命题的发现，计算扎根还可以通过探究复杂关系的多元模式来实现理论的精细化发展。例如，计算扎根的结果显示，自我阶层认知与幸福感的关系呈“梯”状分布，也即存在关键转折点；收入与幸福感的关系呈“厂”字形分布，也即服从边际效益递减；年龄与幸福感的关系呈“谷”状分布，即中年人幸福感低，青年人和老年人幸福感高；家人交流时间与幸福感的关系呈“峰”状分布，即家人相处距离需恰到好处。计算扎根可以充分捕捉变量之间的非线性关系，同时可以呈现不同群体或个体的同质异质效应等。计算扎根方法的多重价值计算扎根对传统定量研究的补充是多方面的。在数据层面，模型纳入的指标不再仅限于有限的几个变量，而是尽可能地纳入各类

16、指标；在目标层面，不再强调模型系数的统计显著性，而是重新平衡社会预测的准确性和机制的可解释性；在观察视野层面,不再局限于回归系数大小和方向，而是细致挖掘变量间的非线性关系和群体异质效应。这些革新能够为计算扎根方法带来多方面的价值。（一）理论创生价值：发现潜在模式。只要数据本身足够丰富，计算扎根就能引导研究者通过发现新的解释变量启发新理论假说。通过一次计算扎根，我们就能够对整个调查数据的上百个指标进行筛选比较。（二）理论发展价值：捕捉复杂关系。真实社会中数据的两两关系远没有我们预期得那么整齐划一。计算扎根方法能充分捕捉变量之间的复杂关系，解放传统计量模型的线性枷锁。（三）学科范式价值：第二种想象力。米尔斯的社会学想象力是基于个人体验的视角提升的思维，而计算扎根则提供了一种基于数据的以算法模型来直接助产理论的思维能力。（四）知识体系价值：自主知识生产。有更多的新理论假说可以从大量数据中得到启发、更细微的机制和关系特征可以被同时发现，进行

展开阅读全文