江晓原穆蕴秋：“影响因子”是用来赚大钱的

一、影响因子在当今中国的声势

期刊的所谓“影响因子”(impact factor),在中国当下的期刊评价体系中,特别是在科技期刊评价体系中,已经被推崇到荒谬的高度。举例来说,英国的《自然》(Nature)杂志如今在许多中国学者心目中绝对是高居神坛,而它之所以被学界捧上神坛,主要原因之一就是它在风靡全球的“影响因子”游戏中,长期遥遥领先——二〇一四年它的“影响因子”高达41.5,在SCI期刊中位居第七。几乎可以这样说,对《自然》的迷信和崇拜,就是对期刊“影响因子”迷信和崇拜的表征。

这种迷信和崇拜可以达到什么程度?看一个例子就可见一斑: 据二〇〇六年《自然》杂志上题为《现金行赏,发表奖励》的文章中说,这年中国科学院对一篇《自然》杂志上的文章给出的奖金是二十五万元人民币,而中国农业大学的奖金高达三十万元人民币以上,这样的“赏格”让《自然》杂志自己都感到有点受宠若惊。

在当前国人的错误认识中,普遍将期刊“影响因子”看成理所当然的权威学术评估手段,视为一种“学术公器”,用于衡量个人、学术团体、研究单位,甚至国家的整体学术水平。许多科研机构的管理部门,长期强调并用各种考核手段要求科研人员尽可能将论文发表在国外的高影响因子刊物上,却完全没有看到,这种要求不仅在学理上极为无理,而且正在实际上对中国学术造成极大伤害。

二、影响因子的商业性质

一位《中国科学报》的资深女记者,在和我们讨论有关问题时, 曾非常自然地问:“影响因子”难道不是国际科学界对科研成果公认的最客观评价吗?她这样问,当然反映了她对“影响因子”公正性的深信不疑。让笔者稍感吃惊的是,在我们的思想认识中,作为一位《中国科学报》的资深记者,她按理应该在这个问题上有着比一般公众及文科学者更为专业和清醒的认识。结果我们看到连她这样的专业人士都受害如此之深,可见“影响因子”的神话已经误人到什么程度了。

当时我们忍不住告诉她:你要是知道“影响因子”其实是美国一家私人商业公司推出的一项盈利产品,你就不会那样问了!

非常奇怪的是,国内学界对期刊“影响因子”的历史形成过程, 几乎没有人去关注,而且几乎完全没有人注意到它纯粹的商业性质。出现这种状况的原因,主要是因为人们普遍从一开始就是跪倒在“影响因子”面前的,将它误认为是国际科学界的“学术公器”。

让我们先“剧透”一点调查结果:“科学情报研究所”(Institute for Scientific Information,通行的简称是ISI )逐年发布的“科学引用索引”(Science Citation Index ,简称SCI)和“期刊引证报告”(Journal Citation Report,简称JCR),被当今科学界视为两种最权威的学术评估数据。SCI可用来检索科学论文被引用的情况,JCR本质上是SCI的衍生产品,它是基于对SCI(后来包括SSCI和A&HCI)“引用索引”数据进行整合处理后得到的结果,就是期刊的“影响因子”。许多人误以为它们是由“国际权威科学机构”发布的,而实际上这家“科学情报研究所”从一开始就是一家地地道道的私人商业公司,一九九二年又被汤森路透(Thomson Reuters)收购。只是ISI的这一性质,多年来一直不太为普通公众和许多学界人士所知。

但是且慢,“科学情报研究所”难道会是私人商业公司吗?

是的,对于习惯于“循名责实”、“名实相副”的中国公众来说,这太出人意表了。但是别忘记,这家公司是在美国。公司创始人尤金•加菲尔德(Eugene Garfield)最初曾使用“尤金•加菲尔德学会”的名称,听上去有点“伪学术”味道,但在一九六〇年改名为“科学情报研究所”之后,听起来就完全像一家政府科学机构了。晚年的加菲尔德功成名就之后,对于自己的“成功之道”也不用那么讳莫如深了,他曾在文章中非常坦率地承认, 他要的就是这种容易引起混淆的效果:“特别是在国外,‘科学情报研究所’这样的叫法,很容易被当成一家非营利机构。”但在美国, 他这样做并不违反法律方面的任何条规,而在中国公众所习惯的观念中,那甚至有可能涉嫌欺诈了。

我们知道,对于长期跪倒在“影响因子”面前的人来说,仅仅指出它是由一家私人商业公司发布的,可能仍然不足以动摇他们对“影响因子”的崇敬之情,要真正理解“影响因子”的商业性质,就有必要进一步了解它的前世今生。

三、尤金•加菲尔德的创业

SCI和JCR这两种数据行用半个世纪,已经极大地改变了国际科学界的学术生态和发表机制。他们的创立者尤金•加菲尔德不管历史功过如何,已经足以名垂青史。

加菲尔德一九二五年生于纽约布朗克斯区,从哥伦比亚大学获化学学士学位(一九四九)和图书情报学硕士学位(一九五四),从宾夕法尼亚大学获结构语言学博士学位(一九六一)。一九五六年,还在攻读博士学位的加菲尔德已经注册成立了一家小公司,推出了第一款信息产品《目录快讯》(Current Contents,简称CC),是一种对管理类杂志目录进行定期汇编的小册子。除了零售散卖,贝尔实验室(Bell Lab)成为他的第一家企业用户。加菲尔德后来回忆,为了完成贝尔的订单,需要先投入五百美元作为印刷费,而这在他白手起家的早期不是一笔小数目,他从私人银行贷款才勉强渡过难关。

一九六〇年加菲尔德迎来了他事业的转折点。这年他将公司改名“科学情报研究所”,与美国国家健康学会合作,获得国家科学基金(NSF)三十万美元,共同承担建设“基因文献引用索引库”(Genetics Citation Index)项目。该项目对一九六一年二十八个国家出版的六百一十三种期刊两万册以上的一百四十万条参考文献建立引用索引,进行编目,最终结果共五卷,其中基因类文献引用索引独立成一卷。一九六三年该项目顺利结项,加菲尔德原指望国家科学基金继续提供资助,将余下四卷一起出版,但他的申请未获批准。加菲尔德于是决定自己来干,独立出版,并将五卷统一命名为“科学引用索引”,即科学界现今奉为圭臬的SCI。

SCI收录一定范围数量的期刊——通常被称为“源刊”(source journals),通过在源刊文本和源刊参考文献之间建立“引用索引”(Citation Index),可提供检索学者的 SCI论文发表数量和被引用次数——在理工科领域,对学者学术水平的评判现今主要取决于这类数据。1964年加菲尔德首次出版一九六一年的SCI报告,此后逐年出版,延续至今。他又先后在一九七三和一九七八年开始推出“社会科学引用索引报告”( Social Science Citation Index ,简称SSCI)和“艺术及人文科学引用索引报告”(Arts & Humanities Citation Index,简称A&HCI),完全套用了 SCI 的产品思路和模式。

从起源上看,“引用索引”的想法并非加菲尔德首创,它是受到美国一种判例援引法律工具书的启发。美国法律遵照“判例”原则, 法院进行判决时,必须与本院或上级法院此前对相似案例做出的判决保持一致。一八七三年,芝加哥法律出版商谢帕德(F. Shepard)开始出版一种他自己编印的工具书,在判例和援引案例之间建立索引, 统一编列并标记判例是否已被推翻、撤销、修改或加入限制条件。这种工具书能帮助律师快速了解一个判例是否仍然适宜援引,出版后大受欢迎,法律界人士几乎人手一本。谢帕德的名字甚至衍化出一个法律术语“Shepardize”,意为“查阅《谢帕德引证》”。

而作为一种期刊评估手段,JCR的思想源头可追溯至格罗斯(Gloss)夫妇一九二七年发表在《科学》(Science)上的一篇文章。他们试图解决这样一个问题:在图书馆预算有限的情形下,应该参照什么标准为学生购买供查阅的化学期刊?最简便的方法,当然是找一个权威专家为图书馆开列一个目录清单,但这会受到专家个人局限的左右。格罗斯夫妇的解决方案,是选取知名刊物《美国化学学会杂志》,对它一九二六年发表的两百四十七篇文章的三千六百三十三条参考文献进行统计,按引用次数对所有被引刊物进行排序,刊物重要性与排序结果直接对应,图书馆可参照此清单进行购买。这种筛选方式操作简便,且不存在太高专业“门槛”,很快被其他信息科学家借鉴推广到别的学科领域。

SCI 作为 JCR 的数据基础,相较前人有所突破的地方在于,不再区分学科类别,收录期刊海量增加。但根本区别在于,格罗斯夫妇及其后继者们对期刊进行筛选时,还保持着非常“纯洁”的动机, 为的是服务学术,而SCI和JCR却不是这样,它们从一出生就是商业信息产品,“赚钱”是它们与生俱来的属性。

四、讲个故事推销产品：“影响因子”预测诺贝尔奖

加菲尔德白手起家,从最初五百美元都要靠私人银行贷款,发展到今天至少在科学界俨然有君临天下之势的“信息帝国”,确实堪称科学、信息、资本三者结合的传奇。这个帝国的所作所为是好是坏,“影响因子”本身是不是合理,还不是本文打算讨论的内容,要留待以后再说。但加菲尔德在推销他的产品时,手法高明而且不遗余力, 却不可不提。这里也姑举一例以见一斑。

加菲尔德千方百计要让他的信息商品位居高端,乃至凌驾于学术之上,他的关键手法之一是讲了一个动人的故事——SCI可以预测诺贝尔奖。

一九六五年,即SCI推向市场的次年,在美国海军研究办公室(Office for Naval Research)主办的一次学术会议上,加菲尔德做了大会报告。当时他迫切需要打开SCI的市场,所以这次大会报告很大程度上成为一次不失时机的产品推介。加菲尔德宣称,SCI有五项功能: 一、便于学者了解前人工作;二、可作为评估研究成果的手段;三、便于追踪研究成果的发表来源;四、可用于计算期刊的“影响因子”; 五、为科学史研究提供一种辅助手段。

在阐述第二项功能时,加菲尔德选择了最能撩拨学界敏感神经的“诺贝尔奖预测”来进行论证。他利用1964年首次出版的一九六一年度SCI报告,统计了一九六一年二十五万七千九百位学者的成果被SCI论文引用的情况,又统计了一九六二、一九六三年产生的十三位物理、化学和医学诺贝尔奖获得者的论文引用情况, 数据表明,该十三位学者在获得诺贝尔奖的前一年,他们的成果被SCI论文引用的平均数量和次数远高于一般水平。

2000年至2004年诺贝尔奖获奖者所发表的论文，得奖前四年里的年征引率与得奖后五年内的年征引率（来源：Scopus）

从表面上看,这确实表明优秀科学家群体有着更高的SCI论文被引用数,但这并不足以支撑加菲尔德的论断:SCI论文引用数可以反过来用于评估单个学者的学术水平。

事实上,就在两年前的一篇文章中,加菲尔德还主动发出警告, 利用论文引用次数评估科学家和科学成果可能存在风险,理由是“论文的影响和论文的重要性及意义是两码事”。他甚至非常恰如其分地引用了苏联李森科的例子,说明如果引用次数最多的作者应该获得诺贝尔奖,那就会得出李森科是苏联最伟大科学家的荒谬结论。而且在加菲尔德举例的十三位诺贝尔奖获得者中,已有一个明显反例: 按照加菲尔德的统计,一九六三年度物理学奖获得者约翰内斯•詹森(J. H. Jensen)一九六一年三篇论文的SCI引用才四次,连引用次数的平均值(5.51次)都未达到。

但是,加菲尔德在随后持续打造SCI产品“学术形象”的过程中, 却似乎完全忘记了自己当初发出的警告。从一九六五至一九八三年间,他先后撰写了三十多篇文章,力图证明SCI论文引用可以“预测”诺贝尔奖。

在一九九〇年的一篇综述文章中,加菲尔德引用他此前鼓吹此事的三十多篇文章,力图将所谓“高引作者名录”和诺贝尔奖联系起来。我们详细研究了加菲尔德这篇文章所提供的数据,发现他对数据的处理和使用至少存在着三个问题:

第一,加菲尔德非常明显地对数据进行“选择性呈现”。每年新增SCI论文数以万计,这些论文产生的引用会让SCI“高引作者名录”各年大不相同,因此截取年限不同,结果就不一样。加菲尔德提供的六组数据中,起始年份各不相同,截止都在一九九〇年(该文写于这年),截取年限依次为一年、一年、十一年、十四年、十三年和十五年,并无章法可循。事实上,一九六一至一九九〇年的三十年间,所有可能截取的年限共有四百六十五种,对应的“高引作者名录”就应该有四百六十五份——而加菲尔德仅仅给出了其中六份,呈样率不到1.3%,对于如此明显的选择性呈现,加菲尔德却没有交代任何理由(哪怕宣称是“随机抽取”)。

第二,加菲尔德没有说明“高引作者名录”人数的选取标准。因为名单越长,出现诺贝尔奖得主的概率也就越大。加菲尔德的六组数据,名单人数从最初的五十扩大到了后来的一千,却没有给出任何解释理由。

第三,没有明确预测的有效年限。通常,预测事件发生是有时限要求的。加菲尔德六组数据的预测年份截止于一九九〇年,只是因为他的文章写于这一年,这意味着预测的有效期限可能止于任何年份,这完全背离了“预测”的基本要求。

加菲尔德之后,有学者采用相同路径加入“预测”行列,这些工作对引导学界相信 SCI 论文“高引”可预测诺贝尔奖起了推波助澜的作用,而客观上则是在自觉或不自觉地帮助SCI推销产品。但对于这种“预测”,学界至今还存在相当大的异议。下面仅举一例:

学者金格拉斯(Y. Gingras)和华莱士(M. Wallace)二〇一〇年发表一项研究,他们对比物理和化学领域的两组数据:逐年统计一九〇一至二〇〇七年排名前五百的高引作者的被引用情况,和一九〇一至二〇〇七年三百三十位诺奖得主的被引用情况。统计结果显示,一九〇〇至一九四五年间,诺贝尔奖得主在获奖当年的平均被引用次数确实高于其他高引作者,出现一个突出的峰值;但是从一九四六至二〇〇七年,这样的峰值再未出现。这意味着,一九〇〇至一九四五年间,成果引用或许可以看作预测诺贝尔奖的有效风向标,但是从一九四六年以后,试图从“高引作者”中鉴别出诺贝尔奖得主已经完全没有可能。他们对这种变化提出的解释是:五十年代以来科研人数在急剧增加;同时专业分支在不断细化。如果他们的研究结论成立,那就表明:早在SCI作为一种商品被销售之前的大约二十年,它在“预测诺贝尔奖”这件事上就已经失效了。

一个对金格拉斯和华莱士两人上述研究结论非常有利的最新证据是:“科学情报研究所”二〇一四年公布的“高引作者名录”中, 尽管包括了多达三千二百一十六位科学人士,但该名录二〇一四年的诺贝尔奖“预测”命中率为零。

然而这并不妨碍“高引作者名录”继续受学界追捧。因为在“SCI引用”风行整个学界的今天,能进入该名录已经被当成学术水平突出的象征。更何况,鼓吹“预测诺贝尔奖”本来只是加菲尔德当年推销SCI产品时的一个手段,如今时移世易,SCI和“影响因子”的声势已经如日中天,能不能预测诺贝尔奖早已无关紧要了。

五、ISI“信息帝国”的惊人利润

在加菲尔德创业之前,美国的科技情报工作,倒是和今天中国公众想象的十分接近 :通常由政府学术机构牵头采集、整理和公布。套用一句今天的时髦话头,可以说是加菲尔德一手开创了科技情报的商业化经营模式。所以《科学》杂志一九七八年的一篇文章中称加菲尔德为“将信息王国建立在脚注上的百万富翁”。

对加菲尔德而言,1964年投产SCI完全是背水一战的商业冒险。为了弥补资金缺口,他把公司20%的股权以五十万美元价格卖给华尔街风投。老年加菲尔德回顾自己创业时的峥嵘岁月,在一次访谈中告诉记者,当年SCI的发售价格为每份七百美元,它的第一份订单来自美国中央情报局(CIA)图书馆,出人意料的是第二份订单——它来自红色中国。

事实证明,加菲尔德对SCI的产品决策堪称“高风险高收益”。SCI从1964年推向市场到一九七一年,ISI的利润连年以年均27.5% 的幅度增长,随后又开发了十余款新产品,公司业务迅速拓展到全球,最终成为世界第一大科技信息服务咨询公司。

除了SCI和JCR这样的“灵魂产品”,ISI 开发的其他知名产品还包括 :《目录快讯》(CC),一九五六年首次面市,只对管理类期刊进行汇编,翌年起将汇编对象拓展到医药、化学、生命科学等领域的学术期刊。作为ISI开发的第一个产品,CC在 SCI出现之前一直是公司最赚钱的产品。《化合物索引库》(Index Chemicus,简称IC),该数据库有助于研究者了解新出现化合物的相关研究数据,还可获得重要有机化学期刊对它的评价结果,但一九六〇年推出后一直只赔不赚,然而加菲尔德却对它倾注了巨大热情,手下四名主要副手集体辞职也未能迫使他终止。不过IC如今已成为汤森路透的又一热门产品。

一九八八年,加菲尔德把“科学情报研究所”超过50%的股权卖给JPT出版公司(JPT Publishing)。一九九二年四月,汤森路透以二点一亿美元价格收购了JPT出版公司。据汤森路透首席运营官说,这项交易主要是为了得到“科学情报研究所”,当时“科学情报研究所在全球拥有三十万客户,每年净利润约为一千五百万美元”。而到了今天,据统计,汤森路透和英国里德•爱斯维尔集团(Reed Elsevier)、荷兰威科集团(Wolters Kluwer),三巨头共占据了全球情报市场份额的90%。

至于如今汤森路透旗下“科学情报研究所”的盈利规模,笔者姑且披露一所我们熟悉的国内著名“985”高校的有关情况以见一斑: 该校目前订阅了汤森路透七种信息产品:Web of Science(包括SCI、SSCI、A & HCI 等)、JCR、BIOSIS Previews(生物科学数据库)、CC、Derwent Innovations Index(德温特专利情报数据库)、EssentialScience Indicators(基本科学指标,ESI)、ISI Emerging Market(ISI新兴市场信息服务),该校每年为此支付的费用超过两百万元人民币。

想想全中国有多少所类似的高校,全世界又有多少所类似的高校,而且国外许多高校在购买此类数据库时往往比国内高校更为慷慨,再想想“科学情报研究所”在一九九二年就有三十万客户,就不难想象加菲尔德创建的“信息帝国”如今的盈利规模了。

上面这段故事,还只是我们打算讲述的关于“影响因子”江湖故事中的第一段。这个故事总体来说好有一比—不知电视剧《琅琊榜》是否已经家喻户晓到如此地步了:加菲尔德就好比学术江湖的梅长苏,“科学情报研究所”就好比学术江湖的江左盟,而他们卖信息赚大钱的行事倒很像琅琊阁;那么“麒麟才子,彼岸加郎”有没有暗中辅佐的靖王殿下呢?至少在客观效果上也是有的,那就是Nature杂志了——但这要且听下回分解。

江晓原穆蕴秋：“影响因子”是用来赚大钱的

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

江晓原 穆蕴秋：“影响因子”是用来赚大钱的

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

江晓原穆蕴秋：“影响因子”是用来赚大钱的