《(图灵指数)学术大数据下的跨领域跨年代学者影响力评估.docx》由会员分享,可在线阅读,更多相关《(图灵指数)学术大数据下的跨领域跨年代学者影响力评估.docx(14页珍藏版)》请在优知文库上搜索。
1、随着学术界规模的扩大,面对领域和年代的巨大差异,现有的衡量学者影响力的量化指标很难消除偏差,从而进行准确衡量。通过观察18652016年、310个领域、14223183位学者、126438664篇论文和533556856次引用的数据集,得出不同领域、不同年代的新增引用量分布均遵循累律分布,因此提出图灵指数,通过归一化消除指数膨胀的影响,衡量学者的绝对影响力。通过对诺贝尔奖、菲尔兹奖、图灵奖等获得者的图灵指数的比较发现,尽管他们在领域和年代上存在很大差异,但是在各自领域却有着相似的影响力。图灵指数为跨领域、跨年代学者影响力评估提供了全新的思路,也为国内外学者影响力评估和基金审理提供了参考。1引言
2、目前,越来越多的人投身于学术界,并在众多研究领域取得成就。如何量化众多学者的影响力已引起了全世界的关注,对学者影响力进行评估,对基金项目进行评审和学术奖项评选等都有很重要的意义,可以推动学术界进一步的发展。目前,最广泛使用的评价指标是引用量,即学者发表论文的总被引用次数。另一个广泛使用的指标是H指数,它根据研究者被引用最多的论文数目和被引用次数来衡量学者的产出和影响力。上述两种方法均未考虑领域和年代的影响,研究人员基于引用量和H指数提出了一些变体,用于衡量学者的个人水平。随着时间的推移,出现了很多解决学术影响力量化问题的方法。由于领域本身的迅速发展和不同领域的不平衡发展,一些工作分别考虑了不同
3、年代、不同领域对影响力量化的影响,并且基于引用量和H指数的归一化来平衡不同年代、不同领域学者的相对位置。在消除年代和领域的影响时,这些指标都没有合理考虑学术界规模迅速扩大造成的影响,导致评估结果并不理想。2学术界的指数膨胀为了对不同领域、不同年代的学者进行影响力评估,笔者对学者和论文数据进行了统计和收集,数据来源于ACemaP和微软学术。微软学术利用论文发表期刊、标题和正文等信息对论文所在领域进行层次划分,划分结果得到了学术界和工业界的广泛认可。本文利用ACem叩整合微软学术从1865年到2016年的310个领域、14223183位学者、126438664篇论文和533556856次引用的数据
4、集,进行学者影响力评估的探索。主要领域的学者、论文和引用量等统计结果见表Io1敬密集主要领域信总燎计主要领域检文教/结引J11fit次学者数/位子领域数/个时间政治学2294741307131749082S019282016年药学659383647987676699626167518752016年哲学13673949352141321093166518742016年化学771726755106936262877352218652016年羟济学392878228015103313730234919062016年历史学62035539064172746965618902016年数学79099505
5、8A5640547308802518892016年生物学77514835619200703831641741&W2016年计算机科学751284957184995474060518118892016年材料科学25538601854914232512094519022016年社会学310788221307422755201204818972016年地质学262446318735592570621212018952016年心理学435457731459854278842243018972016年环境科学44141028935558557017819012016年物理学947169867077466
6、142982662018652016年工程学581925943237804374996268918H92016年艺术学4562713205085478542219102016年地理学57123342377966579050219122016年衅1086437767941115116453618942016年如图1所示,历年新增论文、引用量和学者数目均呈指数级增长,可以看出学术界在飞速发展。从图1可以看到两个明显的凹陷,分别在1917年和1941年左右。笔者认为这是由两次世界大战造成的,可见军事对科学研究也会产生很大影响。图1历年新增论文、引用量和学者数目统计本文对各个主要领域内部的发展情况进行
7、了统计,如图2所示,不同领域由于发展情况不同,线条的斜率和截距不同,但均呈指数增长。其中C为引用量。图3显示了指数膨胀的学术网络,图3中红线表示每年活跃学者的数量,网络中的彩色节点表示不同领域的活跃学者,每个簇代表一个领域,可见领域的膨胀是非常迅速的。图4为从1950-2014年16个物理子领域的历年引用量增长情况,该领域内部的子领域发展也是不均衡的。1071960年2000年1980年 年份图3学术网络指数膨胀可视化,K遍生n2010年2006年2002年1998年1994年-19901986年1982年-1978年一1974本197。年1966年1962庠一1958年-1954年1950年
8、图4物理子领域历年引用量增长3指数膨胀效应对学者影响力评估的影响随着学术界的指数膨胀,发表更多的文章、获得更多的引用量变得更加容易,在这种情况下,以往的文献引用和H指数等指标无法很好地描述学者在以下3种指数膨胀效应下的影响。一是时间的膨胀效应。学者在不同时期的相同引用量是不等价的。由于学者和论文数量不断增加,现在的学者论文更容易被引用。1980年被引用1()()次的学者可能比2018年被引用100次的学者具有更高的影响力。同样,H指数也没有充分考虑时间效应。因此,仅仅采用引用量或H指数可能会导致一种错误的判断,即年长的学术巨头和年轻的学者对学术界具有相同的影响力。二是领域的膨胀效应。一个重要但
9、通常被忽视的因素是研究领域发展水平不均衡带来的影响。虽然不同领域的引用量均呈指数增长,但其膨胀速度和状态不同,发展水平也不同。例如,生物学的年总被引次数大约是政治学的40倍。图3给出了活跃学者在不同领域的膨胀情况,领域的大小按照它们自己的节奏发展,即使在单个领域(如图4所示的物理学领域),其子领域的发展水平也是完全不同的。拥有相同引用量的不同领域的学者,他们在各自领域的影响力是不相等的。在蓬勃发展的热门领域和在小众领域得到相同的引用量是不等价的。三是年代的膨胀效应。即使在同一时间、同一领域内拥有相同的引用量和H指数,但在学者们活跃年代不同的情况下,他们的影响力也可能存在差异。活跃年代是指学者在
10、所属领域内被引频次数快速增长的时期。如图5所示,威廉菲利普斯和迈克尔弗莱施豪尔是量子光学领域的两位杰出物理学家。根据谷歌学术统计,截至2018年,威廉菲利普斯共获得引用23750次,H指数为66,而迈克尔弗莱施豪尔的被引用次数和H指数分别为21578次和60o虽然他们有相似的引用和H指数,但威廉菲利普斯(活跃年代为20世纪90年代)比迈克尔弗莱施豪尔(活跃年代为21世纪初)有更早的活跃年代。也就是说,在一个全新的、学者较少的领域获得相同的引用通常比在一个成熟的领域难得多,而且领域的开创者比追随者影响力更大。因此,目前威廉菲利普斯对量子光学的影响大于迈克尔弗莱施豪尔,而实际中,威廉菲利普斯获得了
11、诺贝尔物理学奖,也验证了本文的观察。图5两学者历年新增引用量比较然而,上述观察中得出的结论主要是基于人的主观经验。那么是否有一个量化指标可以消除领域和年代的膨胀效应,为学者提供科学客观的评价?作为一种大胆而又严谨的尝试,本文提出一种新的度量标准,即图灵指数(TUringindex),以重新评估学者的影响。4图灵指数为了消除不同领域、不同年代对学者影响力评价的影响,本文首先研究了各个领域每年学者的新增学者引用量分布,即学者的数量与特定年份内相应增加的引用分布情况。为了寻找合适的量化指标,本文从数据集中提取数据,并绘制历年学者新增引用量分布图。图6为2015年物理领域的引文网络,图6中每个节点代表
12、2015年在物理领域发表或引用论文的活跃学者,红色节点的度数较高,绿色节点的度数较低,从图6可以看出,极少数红色节点被绿色节点包围,由此笔者猜想引用量分布符合累律分布,即红色节点获得大部分的引用次数,大多数的绿色节点被引用次数则少得多。为了验证这一猜想,基于对每年论文的新增引用量和这些论文的所属学者和领域,本文计算出1228960765条四元组,每一条四元组都由学者、领域、年份和引用组成,表示每年每个学者在不同领域的新增引用。图62015年物理领域学者引文网络利用四元组,本文用对数图绘制学者的引用量分布情况,如图7所示,尽管不同领域的学者数量不同,但这些引用量分布都可以通过线性函数很好地拟合,
13、说明它们都遵循事律分布,其形式如式(1)所示。n=N(k-l)ck(1)其中,n表示每年被引用次数增加数值为C的学者数目,N为当年被引用的活跃学者总数,k为比例指数。引用量分布的归一化是为了让不同慕律分布公式符合相同的参数。为此,本文假定目标归一化领域ft)有NO个学者和标度系数k,同时引用量为Co的学者有NO个,那么其引用分布为:no=M(-l)c0*(2)同样,本文假设未归一化领域fi(iZl)的引用分布为:ni=Ni(ki-1)ci*(3)为了使领域fi具有与领域f相同的分布,本文需要在ni=n时,使得新增引用量Ci归一化为c,其中,c表示在领域fi中引用量为Ci的学者P归一化后在领域f
14、中的绝对位置。然后有:Ni(ki-l)c=N0(k0-l)cnki(4)因为NO和k是常量,所以有:幺QoCrlT=7-0rM%(*l-卢In(a)社会学和物理学较域(0经济学和计算机科学领域图7不同领域不同年代新增引用量分布情况其中,=o针对归一化,本文将CO作为学者的影响力I,学者P在该领域的成就可表示为:Adlk(6)领域通胀水平为:D=Na(k-l)a(7)领域的k值越高,则在该领域越难得到同样的引用量c,因此,相同引用量产生的影响力越大。活跃学者人数N的增加导致领域通胀水平D的增加,从而刻画指数膨胀效应。是一个常量,可以看作一个平衡项,以防止归一化度量的欠收敛和过收敛。图8显示了在3
15、种情况下,领域和年代的归一化过程:相同年代不同领域、不同年代相同领域、不同年代不同领域。归一化后,不同领域、不同年代的引用量分布基本一致。基于式(5)和提出的指标A和D,学者P在领域f从S年到t年的总影响力的图灵指数Tp,f,t为:九=i()生物学与匚稗学领域(0经济学与计算机科学领域图8不同领域不同年代新增引用量分布归化结果利用式(8),可以在相同条件下评估跨领域和跨年代学者的影响。5跨领域、跨年代学者影响力对比本文建立了一个基于数据集的系统来计算和存储不同领域和不同年代学者的图灵指数。一个学者可以属于多个领域,通过对每年增加的引用量进行归一化处理,本文得到了1228960765条包含学者、领域、年份和图灵指数信息的四元组。为了更好地理解图灵指数如何消除通胀