目前评价学术期刊的影响力大多采用引文分析法、期刊的总体被引用频次、影响因子(Impact Factor,IF)等定量指标,其中尤以IF的应用最为广泛。IF不仅被用来评价学术期刊的优劣及学术影响力,还被用来评价科技论文学术质量和作者的学术水平。近年来,评价科技工作者的工作业绩,主要是依据其能否在有影响因子的杂志上发表文章和是否能获得各类科技基金:如省市级基金、国家自然科学基金或国家重点课题基金等,而基金的评选在很大程度上也受到IF的影响,甚至评选职称、获得学位都需要在有一定IF值的杂志上发表文章。同时,学术机构和政府也常根据不同学者论文的IF值情况,给予资金分配和政策支持,甚至职位任命。然而,IF存在很大的局限性,目前有很多人对IF的认知存在一定程度的误区,从而出现了过度夸大、滥用IF的趋势。
1 影响因子的定义
纵观人类科学历史,以前科学家的工作多数是相对独立的,仅把发现成果同他们的朋友或者家人进行交流和沟通。因此,知识的交流速度非常缓慢,很多新的科学成果会被重复发现或者重新证实,有很多科学发现甚至无法确定第一个发现者。很多的科学发现都是在发现者死后才被承认或证实。
现代科学交流始于1665年,首先出现的交流载体是由Robert Boyle所创的科学期刊——《伦敦皇家学会哲学会报》。迄今为止,国内外大约有4万种期刊,其中约有1万5千种是学术期刊,要想在这1万5千种期刊上发表论文并得到同行专家的审阅,就需要有一种对期刊进行定量评价的工具。
IF,又称“影响系数”或者“效果系数”,是由美国宾夕法尼亚大学图书馆科学家、结构语言学家Eugene Garfield提出的一项期刊的计量指标。1955年,Garfield第一次在《Science》杂志上提出可通过论文的被引证频次来衡量期刊的影响,接着在美国国立卫生研究院的支持下,尝试性地出版了遗传学引文索引,继而于1961年出版了科学引文索引(science citation index, SCI)。由于当时很多具有学术价值的期刊没有被收录到SCI中,如果仅依靠期刊的文章发表量来选择期刊,就会忽略掉一些发文量小的期刊。所以Garfield在1972年创立了一种名为IF的引用分析标准来评估已发表的文章等级和重要性,从而使得期刊的定量评价成为可能。与既往的标准(如:Old Boy's network)比较,IF能更为客观地评价已发表文章的重要性。
一种期刊的IF是指该期刊前二年发表的论文在统计当年被引用次数与该期刊前二年发表论文总篇数之比。用公式表示为:IF=(nk-1+nk-2)/(Nk-1+Nk-2),其中nk-1代表上年文献的被引用次数,nk-2代表前年文献的被引用次数;Nk-1代表上年的该期刊的载文总数,Nk-2代表前年的该期刊的载文总数。分母一般包括研究论文与文献综述,但不包括社论、更正、给编辑的信、其他材料评论、书评、软件、硬件及数据库。总之,当论文总数不变的情况下,IF的高低取决于论文被引用次数的多少。
将研究论文发表在具有影响因子的期刊上,并且能被Medline检索到,已经成为当下衡量科研人员科研成果的一种主要的和最容易被人接受的方式。对论文引用次数的分析是计算某一年这个期刊IF的基础。IF可以有效地消除在只计算期刊被引用次数时载文量较大的期刊所产生的偏差。美国著名学者Price认为,文章在发表后两年内被引用的次数最多,然后逐渐减少,进入半衰期和老化衰亡期。IF正是基于这一理论提出的,它能相对客观地评价期刊的整体学术影响力和文献被利用的程度。
因此,IF逐步成为了国际上通行的一种学术期刊的定量评估指标,是预测引用次数最权威的指标,也是迄今为止被广泛用来评估科学影响力的参数。
2 影响因素和不足
通常,人们认为好文章被引用的次数相对较多,但是除了文章质量,其他因素也影响着学术文章的被引用次数。比如学术威望高的期刊可能会在一定程度上增加其文章被引用的次数,即使有些时候文章的科学价值不大。有研究发现:发表在高IF值期刊上的文章比发表在普通期刊的文章更频繁地被引用。某些时候,同一篇文章会同时期发表于几个不同期刊,比如对一个特定专业研究报道的共识性文件或诊治指南。任何人若想要引用这样的文章,理论上应该是这几个期刊论文都有同等的引用机会。然而,2010年的《Journal of Clinical Epidemiology》发表的一篇有关对相同的专家共识的引用次数分析的论文,再次证明了高IF期刊可能会严重影响科技工作者的文献引用。该研究发现,实际上很多学者会选择性引用一些IF较高的期刊论文,其唯一的差别只是期刊的级别或者所谓的威望。
2007年1月,《Kidney Inter-national》的编辑Qais Al-Awqati专门就期刊的IF,发表了一篇评论性文章:Impact factors and prestige(Kidney International 2007;71:183-185)。作者在文章中指出目前中国、韩国和巴基斯坦的科技部门,对那些在“高IF值的杂志”(如:《Nature》《Science》和《Cell》等)发表论文的作者奖励数量可观的现金。一般发表在上述杂志上一篇文章,在中国给予五万美元,而在巴基斯坦,则根据每年累计的IF多少,奖励一千到两万美元不等。由于可以通过发表文章获利,从而严重地破坏了学术严谨性和公平性,甚至会引起学术腐败现象的产生(学术作假、贿赂期刊编辑等)。
作者提出,一个专业规模的大小一般不会影响该类专业杂志的影响因子。因为,大专业的学科,其发表的文章相对数量较多,而引用的数量也会相应增加,所以一般分子和分母是同比例上升的。作者认为,IF虽然不是一个完善的标准,但还算是一个相对比较合理的标准。因为,当在你写的文章中,引用了别人的文章,那你所引用的文章的观点或多或少会影响你自己的论点,所以别人的文章也就有一定的影响。
在论文中,作者罗列出IF排名前四位的杂志(见下图)。首先,最令人困扰的是引用数目最多的论文往往是综述类论文,综述类杂志成为了IF最高的杂志。2003年,IF排名前四位的杂志都是综述性杂志。作者认为,论文作者的懒惰造就了此现象。在写论文时,大多数学者不知道,也不愿意花更多的时间去查阅原文,而这会引起IF分析法很大的偏倚。其次,少量的杂志占据了大量的引用,其中包括被引用数最高的杂志,例如Nature等。25%的文章提供了90%的引用。即使在IF最高的杂志中,仍然有大量的文章从来未被引用过。对于那些在高IF杂志上发表,但从未被引用过的论文,科学家们应该如何评价?
由于IF主要是根据该杂志文章的引用数来计算,其不足之处也很明显。首先,专业和论文种类和语言的不同,文章的引用数是不同的,其对应的IF值也有很大差异。比如:数学类的文章的引用数目明显低于生物科学类的文章。一般基础科学类期刊的IF值普遍比应用科学类期刊要高,而且差异明显,甚至会出现某一学科最好的期刊IF值比另一学科最差期刊的IF值更低。拿医学类期刊来说,基础科学类期刊的IF比临床期刊更高,这是由于基础学科研究员们的主要生活和工作就是进行研究和发表文章,而临床医生则需花大量的时间来治疗患者。基础科学文章往往只需要引用基础科学文献,而临床文章则需引用基础科学文献及临床文献,因此与临床期刊相比,基础科学期刊的IF就增加了。通常,英语期刊较其他语言期刊的IF高,美国期刊IF较高。通过互联网访问期刊,尤其是免费期刊,增加了期刊的IF。
其次,不同专业文章引用的半衰期是不同的,如生理学文章的半衰期要长于分子生物学类文章。如“快报”类期刊文章的大量引用多发生在其论文发表后的前2年内,2年后IF值会迅速下降,而刊登研究类期刊的论文多在发表后3年才出现引用高峰。同时,作者认为应该应用“引用分析”,从而剔除那些对虚假数据或有争议的数据的不严苛的引用。一篇稍后撤回的文章可以继续被引用,而这篇文章对期刊的科学有效性帮助不大。IF可能被作者和杂志编辑所操纵。编辑或支持该杂志的评论者可以要求参考本期刊的文献。高频率的自我引用可以明显增加杂志的IF,并且很多期刊都有这样的情况。
此外,期刊发表文章的多少和引文计量范围大小的统计学差异均可影响IF的计算。2007年12月,洛克菲勒大学杂志社的执行主管Rossner M在数个杂志上撰写文章质疑IF的正确性和期刊被引用数据的完整性。(J Cell Biol 2007;179:1091-1092,J Exp Med 2007;204:3052-3053,J Gen Physiol. 2008;131:3-4)。在文章中,作者提出Thomson科技信息并不能准确提供用于计算IF的数据,同时表示非常关注IF方程式中分母的确定方法。作者拿《儿童神经病学杂志》和《柳叶刀》杂志举例。根据期刊引用报告(Journal Citation Reports),2006年《儿童神经病学杂志》的IF是按照下列方式计算:在2005年里199个出版条目有218个引文,在2004年161个出版条目有268个引文。因此分子是486(218+268),分母是360(199+161),相除结果就是该杂志的IF值1.350。该计算主要是基于科学引文索引网络版(Web of Science)的数据,2005年在《儿童神经病学杂志》科学互联网列表总计有213个出版条目,分类共有193篇原创文章,7篇评论,6篇综述,4封信件和3篇传记。很明显,杂志引文报告仅考虑了193篇文章和6篇综述而计算的199个出版条目,将199作为分母来计算IF。然而,有趣的是,NCBI Pubmed数据库列出的《儿童神经病学杂志》在2005年是207个出版条目。确定的是这些索引都是同一本杂志,但是为什么统计出版条目时却会不同?将Pubmed 和Web of Science相比较就会发现在Web of Science上的数据有些问题。期刊引用报告列出了2006年《柳叶刀》的IF值是25.8。计算公式是20021篇引文除以776个出版条目(2005年360个出版条目和2004年416个出版条目)。同时,Web of Science列出了《柳叶刀》2005年共有1772个出版条目,文章(734篇)、信件(474封)、原文(348篇)、综述(86篇)、传记(77篇)、校正(43篇)、新增条目(20篇)和软件综述(1篇)。Pubmed数据库列出1581个出版条目,92篇认为是综述。更为有趣的是,期刊引用报告仅仅考虑了360个出版条目,是1772个出版条目的20%。如果校正分母到1772的80%,那么《柳叶刀》的影响因子将大大降低,从25分降到5分。在过去5年间,《柳叶刀》影响因子分母都比较小,只有统计出版条目结果的40%,使得影响因子提高65%。很明显,提高杂志IF最简单的方法就是多出版文章,文章被引用,但是又不在Thomson科学信息计算影响因子公式的分母的计算范围内。事实上最理想的方法就是将分母减少为零,杂志编辑承认杂志IF的计算方法是可以控制的。最近,有些编辑竟然改变一些期刊已出版条目(减少Thomson科技信息将其作为分母的可能性),并要求作者再增加额外的引文到最近已被他们期刊接受的文章中。很不幸的是,Thomson科技信息拒绝透露他们计算的细节,增加了人们对数据控制的怀疑。
最后,方法学的论文引用数目较高,如:目前引用数最多的文章是发表在1951年《Journal of Biological Chemistry》杂志上Lowry的蛋白质测量论文,迄今一共被引用了30万次;E.M.Southern发明的southern印迹技术被引用了3万次。
2007年的《英国医学杂志》发表的一篇论文表示,很多杂志编辑对IF有明显的误解,往往更关注引文量,而对读者关注越来越少。有些目前引文率不高的研究可能在20年后被认为是里程碑式的重要研究,是具有真正科学性质的发现。而那些仅考虑引文率的编辑,往往会忽略论文背后的科学性和重要的研究工作,长期来讲对读者也是不利的。
高IF期刊通常都有一个简短的、给人印象深刻的名字,如Cell、Blood、Gut或Thorat,而低IF期刊名通常都超过一个单词,以“journal”或是“archives”开头;以“国际”或是“临床”等词语来修饰;而且不仅提及期刊的学科或主题,同时也会提到是哪个国家的期刊。2008年的《NDT Plus》发表的一篇论文,分析了期刊名长度与IF之间的关系(NDT Plus 2008;2:126-133)。结果发现,期刊名称的长短与期刊的IF值呈显著负相关(P= –0.118,P<0.001)。IF值排名前2%的杂志(n=120,平均IF为13.264,范围为49.794~9.107)与排名后2%的杂志(n=120,平均IF为0.058,范围为0.090~0.004)相比,高IF期刊名较短,平均为26.5个字符,而低IF的期刊名平均为29个字符(P=0.025)。
该研究最终结论为,高IF的期刊名称较短。杂志社应该选择短的期刊名来出版,因为这可能有助于在日益增长的资金争夺战中得以生存。
3 改进措施
有学者提出在计算IF时,应该剔除期刊的自引与负面引用,放宽引文年限。同时,可以根据各学科的自身特点和发展周期的差异性,分学科对IF的期刊影响力进行测试和排序,并给不同学科领域加以权重,权重可以通过专家评定或数学分析来确定。
在2005年Hirsch提出,可以应用一个新的度量标准(h指数)来评估个体科学家的影响程度。h指数代表一个科学家已撰写论文的最高数量,并且每篇论文至少有与论文最高数量相同数量的引用数。h指数50,即表示某人写了50篇论文,每篇论文有至少50个引用数。h指数是与专业领域相关的。排名前10位的物理学家h指数大约为70,而前10位的生物学家h指数可以超过120。最后,也是最重要的是,作者认为一个杂志的IF只是代表了其受关注度或普遍性,而没有真正表示出其权威性或实际声望。你写了一篇文章后,可能会提出一串疑问,“会有谁在关注我的文章?是那些成千上万的毫无意义的引用或阅览者?还是几个权威学者,甚至包括诺贝尔获得者?谁更重要?”
Johan Bollen在2006年5月17日发表的文章,提出可根据“Google”的“PageRank”理论,同时参考引用者的声望,采用“Y-factor”来重新衡量文章或杂志的权威性。
“Google”的“PageRank”是通过网页的众多的连接,评价一个网页的实际价值,从而反映出这个网页的独特的“democratic”性能。重要的是,你的东西(网页或文章)被很多人引用,从而使你有真正的影响,但对那些引用者来说,他们的引用更重要。如果一个网页(科学论文)被其它的网页连接(被引用),那也就意味着任何一个网页(科学论文)具有了其它网页(科学论文)的威望的一部分。比如,一个网页有十个外部连接,那每一个外接的网页就具有前一网页的十分之一的价值。这就是这个网页的真正的“democratic”价值。
“Y-factor”是“IF”和加权的“PageRank”的综合分析,可能是对一个杂志的实际地位更精确的反映参数,也可能是对一个杂志的金标准的客观评价。最后,作者认为“Y-factor”可以做为IF的一个补充或同行评定,而不是替代品。
4 结束语和展望
IF不是衡量文章质量最理想的工具,但目前也没有比此更好的方法。它的存在有其合理性,因此,它仍然是科学评价的好方法。我们要以科学的态度,正确运用IF来科学评价期刊的质量。正如英国伯明翰大学基层医疗部的部长Richard Hobbs认为,我们不应该取消它而应该完善它。
(作者:王敏骏)