前两次专栏中,指出“影响因子”游戏对于中国学界来说已成《葵花宝典》,讨论了影响因子计算公式中的两年期限问题和分母问题,揭示了加菲尔德发布SCI和影响因子的私人商业公司如何通过取名“科学情报研究所”(ISI)达到鱼目混珠的效果,从而获取惊人的商业利润。但这些还只是热身而已,SCI和影响因子的江湖游戏,固然没有“月黑杀人夜,风高放火天”之刀光剑影,却也是黑水深潭,传奇无数。
讲个故事推销产品
尤金•加菲尔德是白手起家的商业奇才,他1925年出生于纽约布朗克斯区,三个学位依次是:1949年哥伦比亚大学化学学士,1954年哥伦比亚大学图书情报学硕士,1961年宾夕法尼亚大学结构语言学博士。1956年,还在“读博”期间的加菲尔德就注册成立了他的小公司,推出的第一款信息产品是《目录快讯》(Current Contents,简称CC),一种对管理类杂志目录进行定期汇编的小册子。除了零售散卖,贝尔实验室(Bell Lab)成为他第一家企业用户。为了完成贝尔的订单,加菲尔德需要500美元的印刷费,他都拿不出来,不得不从私人银行贷款。从60年前“空手套白狼”发展到今天的“信息帝国”,在科学界乃至人文学术界俨然有君临天下之势,确实堪称科学、信息、资本三者结合的传奇。
加菲尔德多年来推销他的产品时,不仅手法高明,而且不遗余力。为了让他的信息商品能够位居高端,他早期的手法之一是讲一个动人故事——SCI可以预测诺贝尔奖。
1965年,即SCI推向市场的次年,在美国海军研究办公室主办的一次学术会议上,加菲尔德做了大会报告。当时他迫切需要打开SCI的市场,所以他的报告实际上成了一次不失时机的产品推介。
当时加菲尔德宣称,SCI有五项功能。今天看来,其中四项尚属言之成理(便于学者了解前人工作、追踪研究成果的发表来源、用于计算期刊的“影响因子”、为科学史研究提供辅助手段),但最遗害后世的是另一项——可作为评估研究成果的手段。
而在阐述这项功能时,加菲尔德选择了最能撩拨科学界敏感神经的“诺贝尔奖预测”来作论证。他利用自己1964年首次出版的1961年度SCI报告,统计了1961年257900位学者的成果被SCI论文引用的情况,又统计了1962、1963年产生的13位物理、化学和医学诺贝尔奖获得者的论文引用情况,数据表明,该13位学者在获得诺贝尔奖的前一年,他们的成果被SCI论文引用的平均次数远高于一般水平。
这确实表明优秀科学家群体有着较高的SCI论文被引用数,但能不能反过来从SCI论文引用数评估一个学者的学术水平呢?
具有讽刺意味的是,就在两年前的一篇文章中,加菲尔德还发出警告:利用论文引用次数评估科学家和科学成果可能存在风险,理由是“论文的影响和论文的重要性及意义是两码事”。他甚至非常恰如其分地引用了苏联李森科的例子,说如果引用次数最多的作者应该获得诺贝尔奖,那就会得出李森科是苏联最伟大科学家的荒谬结论。但加菲尔德在随后持续打造SCI产品“学术形象”的过程中,却完全不顾自己当初发出的警告,从1965年起他先后撰写了30多篇文章,力图证明SCI引用可以“预测”诺贝尔奖。在汤森路透(加菲尔德的商业公司“科学情报研究所”现今的主人)官网上,至今还能看到这样的说法。
加菲尔德“预测诺奖”的三个问题
事实上,加菲尔德1965年报告引用的13位诺贝尔奖获得者中,已有一个明显反例:按照他的统计,1963年度物理学奖获得者约翰内斯•詹森(J. H. Jensen)1961年3篇论文的SCI引用才4次,连引用次数的平均值(5.51次)都未达到。
在1990年的一篇综述文章中,加菲尔德力图将所谓“高引作者名录”和诺贝尔奖联系起来。仔细分析加菲尔德这篇文章所提供的数据,可以发现他对数据的处理和使用,至少存在三个问题:
第一,非常明显地对数据进行“选择性呈现”。每年新增SCI论文数以万计,这些论文产生的引用会让SCI“高引名录”各年大不相同,因此截取年限不同,结果就不一样。加菲尔德提供的6组数据中,起始年份各不相同,截止都在1990年(该文写于这年),截取年限依次为1年、1年、11年、14年、13年和15年,并无章法可循。事实上,1961~1990年30年间,所有可能截取的年限共有465种,对应的“高引名录”就应该有465份——而加菲尔德仅仅给出了其中6份,对于如此明显的选择性呈现,加菲尔德却没有交代任何理由(哪怕宣称是“随机抽取”)。
第二,没有说明“高引作者名录”人数的选取标准。因为名单越长,其中出现诺贝尔奖得主的概率也就越大。加菲尔德的6组数据,名单人数从最初的50扩大到了后来的1000,却没有给出任何理由。
第三,没有明确预测的有效年限。通常,预测事件发生是有时限要求的。加菲尔德6组数据的预测年份截止于1990年,只是因为他的文章写于这一年。如果预测的有效期限可以随意选取,这不符合“预测”的基本要求。
“高引名录”的失效
加菲尔德之后,有的学者采用相同路径加入“预测”行列,这些工作在理论上对引导学界相信SCI论文“高引”可预测诺贝尔奖起了推波助澜的作用,而客观上则是在自觉或不自觉地帮助ISI推销产品。但对于这种“预测”,学界持异议者大有人在,这里姑举一例:
学者金格拉斯(Y. Gingras)和华莱士(M. Wallace)2010年发表一项研究,对比物理和化学领域的两组数据,逐年统计1901-2007排名前500的“高引作者”的被引情况,和1901至2007年间330位诺奖得主的被引情况。统计结果显示:1900~1945年间,诺贝尔奖得主在获奖当年的平均被引用次数确实高于其他高引作者,出现一个突出的峰值;但是从1946年至2007年,这样的峰值再未出现。这意味着,1900~1945年间,成果引用数或许可以看作预测诺贝尔奖的有效风向标,但是从1946年以后,试图从“高引作者”中鉴别出诺贝尔奖得主已经没有可能。他们对这种变化给出的解释是:1950年代以来科研人数急剧增加,同时专业分支在不断细化。如果他们的研究结论成立,那就表明:早在SCI作为一种商品被销售之前大约20年,它在“预测诺贝尔奖”这件事上就已经失效了。
对金格拉斯和华莱士上述研究结论非常有利的最新证据是:“科学情报研究所”2014年公布的“高引作者名录”中,尽管包括了多达3216位科学家,但这年的诺贝尔奖“预测”命中率为零。
然而这并不妨碍“高引作者名录”继续受学界追捧,因为在“SCI引用”风行整个学界的今天,能进入该名录已被当成学术水平突出的象征。更何况,鼓吹“预测诺贝尔奖”本来只是加菲尔德当年推销SCI产品的一个手段,如今时移世易,SCI和“影响因子”声势如日中天,能不能预测诺贝尔奖早已无关紧要啦。