有争议的话题
2014年12月号
医学进展
医学与社会

同行评审?不如随机分配?

作者:赵永刚、沈颖

为什么被NIH评为高分的提案却没有做出更为重要的实验结果?

Michael Lauer在国卫生研究(National Institutes of Health,NIH)的工作,是资助最好的心血管研究项目并将研究结果快速地传播给其他的科学家、医生和公众。但是NIH的同行评审体系,依赖于一组无 酬劳的志愿者科学家对实验的提案进行评估和打分,这使得资助工作和结果的传播工作变得没有那么容易。马里兰州贝塞斯达国卫生研究院心、肺、血液研究所(NIH’s National Heart, Lung, and Blood Institute,NHLBI)的负责人Lauer,近来针对该体系每年被用来分配数以亿计的联邦资金做了两项研究,发现一些令人不安的问题。

Lauer分析了2001年~2008年由NHLBI资助的将近1500项研究项目所发表文章的引用指数,并于上个月将这项令他感到震惊的研究结果发表在《循环研究杂志上。研究结果发现,基金资助评审得分最低的项目与评审得分最高的项目相比,其发表文章数量和文章引用指数是一样的。但事实是,评审得分较低的项目所获得的资金资助少于评审得分高的项目。

Lauer认为:“同行评审 应该能够告诉人们,哪些研究项目将会带来最重大的影响。事实上,我们也很清楚地告诉参与评审的科学家们,这是评判的主要标准之一。但是我们这次的研究所发 现的问题确实非常值得注意。同行评审并没有预测研究项目的产出和影响,这种情况真的非常令人不安。 ”

两个月前,Lauer 和他在 NHLBI 的同事发表了一项关于224项NHLBI资助的临床试验的研究,他们采用的是一个不同的重要性指标,即研究发表的速度。他们得到了一个相似的结论。所以, 从这两项研究结果可以得出一个明显的结论,即评审没有很好地去粗取精,把20亿的资金资助到该用的NHLBI研究项目上。

Lauer 说他已经把他的研究结果呈给了NIH主任 Francis Collins和其他高级官员,并表示:“他们都不觉得我们的研究成果有任何的瑕疵或者错误的想法”但是这也不代表他们同意Lauer的研究结论。

Richard Nakamura是科学评审中心(Scientific Review,CSR)主任,负责监督NIH同行评审机制。他怀疑用事后的评估标准,比如引用指数以及发表文章所需时间来评估研究的影响力是否合理。他 说:“CSR更看重优秀科学家的有影响力的研究想法,而非用文献计量学来衡量研究是否有影响力。”

一些曾经探索过如何评判同行审查体系的社会科学家们则非常支持Lauer的这种将现在的审查体系放到“显微镜”下来审视的主动性。惠灵顿的一个研究所里,领导经济和公共政策研究的经济学家Adam Jaff认为,这种研究有助于NIH和美国其他的研究机构更好地分配稀缺资源。

Jaffe说:“你可能会发现奖励的资金本身可以产生重大的影响,但是对研究提案进行排名却几乎都是随机的。”Jaffe在马萨诸塞州沃尔瑟姆的布兰代斯大学任院长和教授二十年,并去年春天移居到新西兰。他还说:“这意味着,NIH继续对研究项目进行资助非常重要,但是由于评审筛选过程的不合理,资助可能并没有得到有效地运用。”

Lauer强调,他的研究并 不是说NIH所资助的是一些糟糕的研究,也不是提议彻底改革现在的评审体系。但是他希望他的研究结果可以促使NIH质疑一直以来使用的同行评审体系,且更 加注重资助和产出的优化。他认为,这就好比一个医生和一群病人,如何才能让病人的健康最大化?

对该系统保持信心

当你询问一名科学家关于同行评审的情况时,许多科学家会立刻引用Winston Churchill关于民主的著名描述来回答——“除 了人类尝试过的其他一切政府形式,民主的确是最坏的政府形式”。这样的比较承认了该体系的许多瑕疵,包括其内在保守性及无法做出明智的选择,只是防御了来 自同行和科研领域外的批评攻击。Nakamura说:“CRS的存亡依赖于我们对评审公正性的坚信,唯一的偏见也是为了科研更好的发展这一点。任何显示其 并非如此的证据都让我们感到很困扰。”

这并不是说Nakamura 和他的同事认为当前的体系无法得到改善。去年,Collins要求一组由高级管理人员组成的小组到NIH研究如何优化同行评审体系。这个特别小组的重点放 在研究NIH是否需要在审查和资助新兴领域的提案方面做得更多,以及研究如何把重心从已经冷却下来的热门行业中抽身出来。国家卫生研究院主要副主任和工作 组的主席Lawrence Tabak质疑目前的结构能否永葆活力。

CSR管理的这170个左右 的研究部门是NIH同行评审体系的必要组成元素。每一个部门都有12到22名科学家,他们每年集会三次来审查平均约70份的申请(个别研究所也会召集自己 的审阅小组)。针对每项研究提案,小组成员都会给出一个数值分数,所有小组成员给分的平均值作为该提案的影响力分数。很多申请的分数还被转化成百分比进行 排名。

这是一个庞大的体系,它需要科研界的大量投入支持。比如去年,2.4万多名科学家召开了约2500次会议,审阅了大约7.5万份的申请。CSR在整个操作过程中的预算是1.1亿美元。

NIH的官员说,同行评审只是建立平衡资助体系的其中一个组成成分。但是他们也承认,与在其他联邦政府机构的工作人员相比,NIH的项目负责人更易担心资助结果出现问题。这些研究部门的科学家们被假设对相关研究领域是最了解的,只有在不得已的情况下,评审结果才能被推翻。

但Nakamura一直在寻 找评定评审研究部门工作的新方法。比如,在去年12月的CSR咨询委员会会议上,他和Tabak介绍了一个新的尝试,是关于评审小组与被评定受资助的研究 项目发表文章引用率的关系。那些发表在相应领域顶尖杂志的文章且引用率高的评定小组被认为是“热门”,而文章引用率低的被认为是 “冷门”。

Nakamura解释说:“如果那些发表在高影响因子杂志上的确实是热门的研究,那么你就可以把更多的钱投在热门的研究领域,而不是冷门的研究领域。”他又幽默地补充说:“但是那也是建立在你相信这种评判标准的情况下。大公司正在努力预测能产生重大影响的科研项目——我们也在等IBM公司创造一台能做科研且能给予最大资金回报率的机器。”

“我仍然坚信科学家最终会打败度量学和机器。但是要达到那个程度需要面临严峻的挑战。现在的问题是如何做研究,可证明一种方法比另外一种方法好。”

需要更大胆的改善措施

Jaffe说他已经尝试了十年,希望能引起NIH和国家科学基金会(NSF)高级官员的重视,在整个机构中做类似Lauer所做的项目来定量评估同行评 审,但是却失败了。Jaffe说:“令我感到很吃惊的是,相信用科学方法来做科研的科学家竟然不相信这些科学方法也能用到同行评审体系的评估上。对他们来 说,只会本能地觉得目前这个同行评审的体系是最好的。”

Lauer 刚开始是在自己的研究所研究同行评审,并没有得到CSR的资助。他是在读了2012年一月份BMJ杂志的一份研究后才首次察觉同行评审体系的不完善。这份 研究指出,在NHLBI资助的预防和治疗心脏疾病的项目中,只有不到一半的研究者在30个月的实验截止期内发表了实验结果,还有三分之一的资助项目根本就 看不到发表希望。对于这个研究结果,Lauer不是很相信,于是他在原研究的基础上扩大了样本来验证这个结果。但是他发现该项研究的结果是对的。结果为阴 性的研究可能一个长期的时间滞后,但是Lauer发现研究结果阳性的发布记录也并未改善。

他怀疑“萧条”的发表记录是否预示着更深刻的问题:可能NIH资助的研究项目并不是杂志社觉得迫切和重要的。这使得他质疑同行评审体系是否真正完成了其职责。

所以Lauer研究了在审阅中得分高的被资助项目其研究文章是否发表得更快一点。他和NHLBI的同事研究发现,同行评审的评分高低与发表时间的先后没有必然的联系。他们的研究成果于去年发表在New England Journal of Medicine杂志上。

Lauer觉得他们的研究结 果表明,NHLBI的评审专家对所谓的务实的研究项目存在偏见,而这些务实的研究通过研究特定临床环境中的一种治疗程序和或药物来直接获得病人护理数据。 他说:“这些务实研究的结果往往是告知你能或不能做某件事。而且只有不到20%的临床试验是关注这方面的。”

而 大部分NIH资助的临床试验旨在研究某项疾病或者某种治疗方法潜在的生物机制。研究者采用的方法要求研究对象是在特定临床环境中严格定义的一类参与者。 Lauer说:“研究部门认为这样的研究方法更能吸人眼球。我敢说,当我提议务实研究的时候,肯定会有人站出来说,务实研究那些都很好,但是如果我们把这 样的一个研究提案提交上去,审核的时候肯定不会通过。

Lauer已经开始想办法来 改变这种看法。心脏疾病部门已经邀请研究者提交关于务实研究的研究提案,因为Lauer觉得这是非常重要的临床问题。他也从两个重要的方面更改了同行评审 的过程:所有的提案会被提交到一个单独的只评估务实研究的小组,而且这个小组的成员对务实研究都非常了解并认同务实研究的重要性。

Lauer说他的第二个研究 关注的是NIH基本的R01奖金,突出了另一个问题。他在研究中将NHLBI颁发的R01 奖金根据百分比排名分为三类:高于10个百分比的,10到20个百分比的,20到42个百分比的。他的研究样本追溯到了2001年,那一年NIH开始资助 第三类百分比。在那个时候,第三类的提案实际上并没有机会得到赞助,而事实上,这些研究的被引用次数与那些第一类百分比的研究是一样的,这暗示着同行评审 的专家们排除了大量的可能是很重要的研究项目。

像 困扰其他体系的诟病一样,Lauer说同行评审的问题在于依赖专家的判定。2006年宾夕法尼亚大学的心理学家Philip Tetlock撰写的《专业的政治判断:它有多好?我们如何知道它的好?》让Lauer大开眼界。这本书描述了专家的工作其实比随机性好不了多少,人们过 高地估计了他们的预测能力。“这个教训也同样适用于同行评审体系”Tetlock说:“有影响力很大的研究项目被评审团拒绝而没得到资助,而低影响力的项目却得到了资助。”

对 于NIH没有紧急采用Lauer的自我审查的方法,Tetlock表示他并不惊讶。他说:“大多数事业单位在面对对他们工作的客观评价时都不怎么热情。他 们同时也担心这种观点评价会成为反对他们的武器。如果他们的评审结果命中率不是很高而错误率很高的话,公众可能会跳出来说他们是一群白痴。事实上,考虑到 评审工作的不可预测性,他们还是可以尽可能地做好评审工作的。

Lauer 和Jaffe 说 NIH应该大胆一点设计出好的方法来改善同行评审,而不是废弃这种体系。他们特别希望NIH可以检测一下该体系的关键环节。NIH可以启用第二组评审作为 对照组,或者要求评审专家按照几个具体的标准来对提案打分,然后将各项的分数综合到一起而不是像现在这样只给每个提案一个总分。

Tetlock指出,除了上 帝,没有哪一个体系可以有100%的命中率,绝对选出高影响的研究项目,绝对不选低影响的研究项目。但是他相信这个体系还有很大的改善空间。他说:“通过 使用我们已有的最好的科学方法来集思广益得出的判断,将可能提高我们的命中率,降低我们的失误。如果能做到这样,就比较理想了。”

(作者:赵永刚、沈颖)

参考文献:Science 2014;343:596-598

Copyright 1994-2015 Cinkate.com.cn All Rights Reserved 沪ICP备10014127号-5