诺贝尔奖获得者遗传学家Oliver Smithies于2017年1月去世,享年91岁,他是一位谦逊的创造者,也勇于坦陈自己曾经失败的故事:他曾于1953年发表过一篇关于测定渗透压的论文,然而,他说这篇文章的“不光彩之处在于其从未被引用过”。
2014年在德国林道的一次会议上,他对学生们说,“没有人引用这篇文献,也没有人使用过文献中的测定方法”。
其实,Smithies的论文还是引起了一些关注的:在其发表后的十年里,有9篇论文曾引用了它。但Smithies的错误是可以理解的,许多科学家都对未被引用的研究有错误印象。
在1990年的《科学》杂志上,有一篇颇具争议的文章,文中称,超过一半的学术论文在发表五年后仍未被引用。美国西雅图华盛顿大学的信息科学家Jevin West表示,科学家们对这个问题感到非常忧虑。毕竟,“文献引用”被广泛认为是学术影响力的衡量标准,引用次数的多少也反映了论文对后来研究影响的大小。研究人员担心,高比例的未引用文献将表明这些是一堆无用或无关的“垃圾”研究。
实际上,从未被引用的研究并非总是无用的。更重要的是,正如加拿大蒙特利尔大学的信息科学家Vincent Larivière所说,从未被引用过的研究实际上并没有那么多。
为了更好地探究已发表文献的引用情况,《自然》杂志进行了数据挖掘,以确定究竟有多少篇文献从未被引用过。虽然由于引用数据库不完整,无法得出确切结论,但很明显,至少对于Web of Science数据库中的大约12000份核心期刊来说,零引用的文章比普遍认为的数目要少得多。(Web of Science是宾夕法尼亚州费城的Clarivate Analytics所拥有的大型数据库。)
Web of Science的记录表明,只有不到10%的科学文章可能从未被引用过。但真实的数字可能更低,因为在Web of Science中显示未被引用的文献,可能已经在其他地方被引用过。
但这不一定意味着低质量研究较少:成千上万的期刊仍没有被Web of Science纳入索引,同时依然有科学家用无意义的论文来填充他们的简历。
但是,这些新数据可能会让那些因研究被忽视而倍感沮丧的人安心。仔细观察一些未被引用的论文,事实上他们已经被使用过,也被阅读过,而这明显被忽略了。Clarivate公司的高级引用分析师David Pendlebury说,“缺乏引用的论文不能被武断地理解为无用或无价值。”
未被引用的讹传
“有相当大比例的文献未被引用”这种观点可以追溯到1990年和1991年在《科学》杂志上发表的两篇文献。在1990年的报道中,1981年至1985年间发表的文章中有55%在出版后5年内没有被引用。但这些分析是具有误导性的,主要是因为他们统计的出版物包括信件、更正、会议摘要和其他编辑材料等文件,然而这些文件通常不会被引用。如果刨除这些,只留下研究论文和综述文章,那么未被引用的比例会直线下降。截止时间再往后延长五年的话就可以进一步降低未被引用率。
关于研究论文和综述的新数据表明,在大多数学科中,论文出版后五到十年,零引用率将趋于恒定,这个比率在各个学科都有所不同。2006年发表的所有生物医学科学论文中,目前只有4%未被引用;在化学领域,这个数字是8%,在物理学领域,它接近11%。(当排除研究人员引用他们自己的论文时,零引用率可能会有所增加,在某些学科中,比例甚至增加了一半。)在工程和技术领域,2006年Web of Science索引论文的未引用率为24%,远高于自然科学。Larivière指出,这一较高的数字可能与这些报告的技术性质有关,其解决了具体问题,而不是为其他人的工作提供累积。
对于从1900年至2015年底在Web of Science中记录的所有学科的3900万篇研究文献来说,大约21%尚未被引用。不出所料,这些未被引用的论文大多出现在鲜为人知的期刊上;因为几乎所有知名期刊上的论文都会被引用。
几乎不可能的评估
这些数据只能让我们了解“所有论文情况”的一部分,评估所有的文献,是一项不切实际的任务。
检查一小部分文献就已经非常困难。例如,2012年,捷克布拉格查尔斯大学的生物学家Petr Heneberg决定研究13位诺贝尔奖得主在Web of Science中的记录,以彻底核实一篇荒谬的论文,这篇论文声称大约10%的诺贝尔奖获得者的研究未被引用。他首先在Web of Science检索,发现未被引用率接近1.6%。然后,通过检索谷歌学术,Heneberg看到剩下的许多论文实际上已经被Web of Science索引的论文引用,但由于数据输入错误或论文中的拼写错误而被遗漏。同时发现还有很多未编入Web of Science索引的其他期刊和书籍也进行了引用。当Heneberg经过大约20个小时结束检索时,他将比例再降了五倍,未被引用率仅为0.3%。
这样的缺陷很好地解释了为什么无法得出未被引用文章的真实数量,在如此大的规模上重复Heneberg那种手工核查需要很长时间。这些缺陷对不同学科的影响也是不同的。例如,Web of Science的记录表明,在2006年发表的人文学科论文中,有65%的论文尚未被引用。确实很多人文学科的文献都没有被引用,部分原因是,与自然科学相比,人文学科的新研究较少依赖于之前的知识累积。但是,Web of Science并不能准确反映这一领域,因为它忽略了许多期刊和书籍。
同样需要考虑的因素还包括不同国家之间的比较。Web of Science显示,中国、印度和俄罗斯科学家撰写的论文比美国和欧洲的论文更容易被忽视。但Larivière表示,该数据库不会追踪许多区域的其他种类语言的期刊,如果考虑到这些期刊,将会进一步缩小未被引用率。
Larivière说,尽管需要警惕未被引用文献的绝对数量,但Web of Science中的未被引用率已呈强力的下降趋势,互联网使得查找和引用相关论文变得更加容易,促使文章开放获取也可能对此有所帮助。但Larivière警告说,不要过度地解读这一趋势。2009年,他和合作者的一项研究发现,由于科学家们发表了很多论文,并且在他们的文章中引用了更多的参考文献,因此未被引用率正在下降。荷兰莱顿大学的文献计量学研究员Ludo Waltman说,很多论文勉强避开了“未被引用”,Waltman和Larivière的独立计算表明,在Web of Science上,只被引用了一两次的论文很多,数量上要超过那些未被引用的论文。他说,“我们都知道,很多引用都是肤浅或敷衍的”。美国纽约市马克思公共与国际事务学院的健康经济学家Dahlia Remler表示,这可能是学术界互相捧场的标志,甚至高引用的研究也可能是一场学术界共同参与的游戏。
不是完全没有意义
一些研究人员可能倾向于将未被引用的论文当作不相干的东西而不予理睬。毕竟,如果它们很重要,哪怕只是一点点,也不会没有人引用它们。
然而,事实并非总是如此。美国路易斯安那州立大学的植物学家Michael MacRoberts表示,论文的实际影响程度超过了该论文的引用数。在2010年一篇关于分析引用缺陷的文章中,MacRoberts引用了他自己1995年发表的关于在德克萨斯州发现灯笼草的论文。这是该论文第一次也是唯一一次被引用,但其中的信息记录在植物图集和大型在线数据库中;那些使用这些数据库的人会浏览这篇论文和成千上万类似的植物学报告。他说,“这些所谓的未被引用文章中的信息经常被使用,它们只是没被引用而已。”
因此,未被引用的文章实际上仍在被查看。2010年,纽约市健康与心理卫生局的研究人员发表了一项研究,该研究使用软件分析基于唾液的HIV检测试剂盒的性能。几年前,该试剂盒曾在诊所暂停使用,后来又恢复使用。研究者希望利用诊所经验作为案例研究,探究该软件是否可以在问题出现时分析试剂盒的性能。他们的论文发表在《公共科学图书馆·综合》杂志上,同样也从未被引用过。但是该论文的合作者Joe Egger指出,该论文现在已经被翻阅了1500多次并下载了近500次。他表示,这篇文章的目的是改善公共卫生实践,而不是真正推动一个科学领域。
英国卡迪夫大学的化学家Niklaas Buurma表示,还有一些文章未被引用,可能是因为它们旨在切断无益的研究途径。2003年,Buurma及其同事发表了一篇关于“等容争议”的论文,该论文探讨了在反应过程中阻止溶剂收缩或膨胀是否有用(通常发生在温度变化的时候)。从理论上讲,这项具有技术挑战性的实验可能会提供溶剂如何影响化学反应速率的相关内容。但是,Buurma的测试结果表明,化学家不会从这类实验中得到新信息。他说,“我们一开始就想证明一些事情不值得去做,结果我们证明了这一点”,“作为一篇完全未被引用过的论文,它让我感到自豪”。
诺奖得主Oliver Smithies说,他认为自己1953年那篇论文是有价值的,尽管这篇论文从未被引用过。正是这项工作帮助他获得了博士学位,并成为了一名成熟的科学家。从本质上讲,这标记了一位诺贝尔奖获得者曾经的“学徒生涯”。他说:“我喜欢这样做”,“并且我学会了如何做好研究。”
Smithies在他的备份目录中确实至少有一篇未被引用的论文:他的一篇在1976年发表的论文,展示了位于人类15号染色体上的一个特定的免疫系统基因。即使未被引用,但是却不能忽视这篇论文的重要性,哈佛大学医学院的遗传学家Raju Kucherlapati说道,正是因为这篇文章才促使其与Smithies实验室进行长期合作,最终产生的遗传学研究帮助Smithies获得了2007年诺贝尔生理学或医学奖。Kucherlapati说,“对我来说,那篇论文的重要意义在于让我认识了Oliver。”
(作者:马驰)
参考文献:Nature 2017;552:162-164