美国国立卫生研究院关注医学研究的可重复性

现代观点

2014年11月号

卷首语

机会钟爱有准备的头脑

医学进展

手机杂志

人物与学科

吉罗·胡特：一名血液科医生的“进化史”

医学前沿

有争议的话题

现代观点

医学与社会

医生日记

急救见闻

在他乡

感受大家风范——北大医院进修随笔

美国国立卫生研究院关注医学研究的可重复性

作者：马驰、白蕊

从内行到外行，越来越多的人关注这个问题：现有保证生物医学研究可重复性的复杂系统是失败的，它亟需重建。作为美国国立卫生研究院（National Institutes of Health，NIH）的领导者，Francis S. Collins和Lawrence A. Tabak也非常重视这个问题，并且公布了一些他们正在计划采取的重要干预措施。

科学被认为有“自我修正”的能力，因为这种能力建立在前期工作的不断重复之上。从长远来看，这一准则非常正确；但是在短期内，目前确保科学保真性的制衡措施已经难以为继。这已经损害了今天的科研人员复制他人成果的能力。

让我们首先明确一点：除了极少数的例子，我们没有证据认定“不可重复（irreproducibility）”是学术不端行为的结果。2011年，美国卫生和人类服务部的科研诚信办公室只有12 个这样的案件。虽然这仅仅代表一小部分的实际问题，但每年造假论文数远远少于成千上万诚信真实的论文。相反，的确存在其他一系列复杂的因素，它们似乎导致了可重复性的缺乏。这些因素包括：研究者缺乏实验设计的培训；越来越喜欢作出吸引眼球的声明，而不是重视技术细节的呈现；出版物中没有报道实验设计的基本要素。关键的实验设计要素（例如盲法、随机化、可重复性、样本量计算和性别差异的影响）经常被忽略。据说，有些科研家使用“秘密武器”来开展实验，并且在出版过程中对细节有所保留或者含糊其辞以保持其竞争优势。长此以往，在生物医学领域，如何能够期待其他科学家在这样的工作基础上取得更大的进步？

资助机构、学术中心和科学出版社的政策和态度，正在加剧这种情况。资助机构往往不加鉴别地鼓励被高估的科研结果发表在高水平杂志上。一些学术中心为了鼓励在高水平的杂志上发表文章，在晋升、终身教职甚至现金奖励上都做出了激励承诺。

因此，问题接踵而来：什么样的数据没有被发表？目前，只有极少数杂志愿意发表阴性结果或指出已经发表的研究中存在科学缺陷的文章。更为复杂的问题是很难获取未发表数据，并且资助机构未能建立或执行政策来保证这些数据的可访问性。

临床前的问题

可重复性是所有科学学科潜在的一个共同问题。然而，人体临床试验似乎存在更少的风险，因为他们已经受各种规定的约束，这些规定保证了严格的设计和独立的监督：随机化、盲法、效率评估、在标准化的公共数据库（例如ClinicalTrials.gov）预先登记主要指标、接受机构审查委员会和数据安全监测委员会的监督。此外，临床试验团队已经在采用标准报告元素的道路上迈出了重要的一步。

临床前研究，特别是以动物模型为基础的工作，似乎是目前受到再现性问题影响最严重的领域。这些不可再现性总有简单实用的解释：使用不同的动物品系、不同的实验环境或者实验流程的微妙变化。某些不可再现的文章很可能只是一种巧合，实验结果恰好达到统计学意义，只是为了发表而发表。另一个陷阱是过度解读“假设引导”的实验，这类实验的初衷是探索新方法而不是为某个问题提供明确的证据。除此之外，还有不少宣称有重大发现的文章却不能重复，令人担忧。

NIH推荐的行为

作为一个资助机构，NIH深切关注这个问题。缺乏科研培训需要为科学界目前面临的挑战负一部分责任，因此NIH将专门为加强可重复性和研究结果的透明性开放一个培训模块，尤其着重培训如何设计好实验。今年晚些时候，这个培训模块将被并入到NIH内部的博士后“负责制研究行为”的强制性培训中。这只是先行通告，最终的材料将在今年年底公布于NIH的官网，以便广泛传播；当地科研机构可以根据需要，采纳或者改进。

NIH的一些机构和中心正在测试这些推荐行为清单的使用，以保证对基金申请进行更加系统的评估。例如，评审专家必须审查已经提出的实验设计要点，这些要点包括：分析计划、随机化计划、盲法等等。去年NIH启动的先行措施将于今年结束，这一计划旨在评估“一项举措”在保证科研质量上的价值。这一举措，即每一个专题至少委派一名评审专家对申报的基金项目的“科学前提”进行评估；这些“前提”指的是该科学研究的基础，即其所主要引用的论文（这些论文可能来自也可能不是来自于申请者本人的研究）。这个问题非常重要，因为人体试验是基于前期的动物实验结果提出，花费巨大，因而必须慎重评审才能启动。如果临床前期的实验结果不可靠，但其所涉及的临床问题又非常重要，那么主要的临床前期实验结果必须被重新验证。

最晚到今年的第四季度，NIH的领导层将根据这些先行措施的反馈，来决定哪些方法将在NIH全面采用、哪些方法仅限于研究所和中心、哪些方法将被舍弃。

实验数据是论文发表的基础，NIH正在探索如何让研究者提供更加透明的数据。作为“大数据”的发起单位之一，NIH已经要求申请开发“数据发现索引” （Data Discovery Index，DDI）程序，以便其他科研人员能够找到并获取未发表的原始数据。一旦科研人员在新的研究中使用这些数据，数据所有者将被引用；由此而建立了一个全新的、与杂志出版无关的衡量科学贡献的度量，例如，原始数据下载频次。如果开发DDI的基金申请被接受,那么基金奖励将从2014年9月开始发放，持续达三年时间。最后，9月中旬，NIH组织了一个在线论坛“PubMed Commons”，对文章发表中出现的问题和解决办法广开言路、集思广益。作者们可以参与讨论，对文章打分，或者发表评论；在接下来的几个月里，系统将进行评估和改进。迄今为止，已经有2000多位作者参加了论坛，累计发表了700多条评论。

群体的责任

显而易见，仅仅依靠NIH一家之力，不可能扭转目前科研领域存在的“可重复性”问题。因此，NIH正在广泛地接触科研群体、科学相关的出版社、大学、工厂、专业机构、患者权益团体和其他利益相关者，采取必要的措施重置科学探索过程中的“自我修正”标准。应该鼓励杂志多发表那些设计堪称典范但是报道阴性结果的科研项目，或者是纠正先前研究错误的科研项目。

令人欣喜的是，一些顶级杂志已经开始改变其评审方式。例如，自然出版集团（Nature Publishing Group）已经在2013年5月宣布以下规定：废除文章对实验方法部分长度的限制；作者将采用清单的方式将研究中关键的实验设计要素罗列出来，以便于编辑和审稿专家进行核实，并且编辑将在统计学家的帮助下更加彻底地审查研究报告里的统计处理。此外，将鼓励作者随文章在线提供更多原始数据。

NIH下属的国家神经疾病和卒中研究所（National Institute of Neurological Disorders and Stroke）在增加工作透明度的方面做了不少有益的工作。在此基础上，美国科学促进协会名下的相关杂志也已经实施了类似的要求（《科学•转化医学》于 2013年、《科学》于今年9月开始实施）。

也许最棘手的问题是学术奖励机制。目前，方方面面都过分看重在高级别知名杂志上发表文章。毫无疑问，预算上的困难加剧了这种情况，鼓励研究者在没有仔细重复的情况下快速提交研究结果。为解决此事，NIH正在考虑修改 “作者简历”表格的模板，基金申请人必须填写这个表格，着重介绍申请人参与的获得重要成果的研究，并详细介绍申请人在其中发挥的作用。其他组织（如霍华德 •休斯医学研究所）已经采用了这个模板；并且，与传统的不加注释的论文发表方式相比，这一模板更加充分地展示了申请人在科学研究中的真实贡献度。NIH也在考虑为那些处于某些特定职业阶段的科研人员（科研工作不能连续进行）提供更加稳定的科研环境，使他们的科研工作更有弹性，拥有更长的时间来完成研究（目前，每个项目完成时间平均为4年）。

此外，NIH正在校验匿名同行评议的方法是否有效，该方法是为了减少无意识的偏倚。目前，审稿人熟知所有申请人的特征和成就。委员会将在18个月内公布其建议。

仅仅依靠NIH一家之力来改变目前这个不健康的科研环境是远远不够的。当对科研人员的科学贡献和发展潜力进行评估时，大学晋升和终身教职授予委员会，绝对不能用简单武断的方法进行评审，例如：发表高影响因子的文章数量。

最近的证据表明，大量的生物医学研究论文不具备“可重复性”，应该立即采取实际行动来改变这种状况。NIH将坚定地对相应机制进行改革，以减轻这个问题的严重程度，减少这个问题出现的频率；但是，只有生物医学研究界的全面参与，才有可能成功地解决这个问题。

（作者：马驰、白蕊）

参考文献：Nature 2014;505:612-613