创新转化型研究须打破样本量大小的教条

医学前沿

2012年10月号

卷首语

无奈、控制、治愈

医学进展

手机杂志

医学前沿

有争议的话题

临床预防用药中的偏倚：从现状分析到精确预防

现代观点

医学与社会

医生日记

医患之间需要相互理解

医学里程碑

艾滋病治愈之路

在他乡

非洲—心之旅程

创新转化型研究须打破样本量大小的教条

近日，加州大学医学部的Peter Bacchetti和流行病学和生物统计学部的Steven G. Deeks、Joseph M. McCune等研究人员发表了一篇题为“创新转化型研究要打破预估样本量大小的教条主义”的述评，该述评指出创新转化型研究不能依据传统的样本量计算方法，需要独辟蹊径预估样本量，该述评发表在《Science Translational Medicine》杂志上。

1、什么是科学的临床研究

所谓临床研究是指任何旨在揭示或证实产品的临床、药物学、其他药物动力学的效应，识别、研究产品的不良反应、安全性或效果，或试验药物的吸收分布、代谢以及排出而在人身上进行的研究。科学的临床研究并不等于临床经验。由于疾病的病理生理过程的复杂性及个体差异性，要决定一种新的治疗方法是否对某种疾病的治疗有效，或要在集中治疗方案中比较哪种疗法更有效，并不是一件简单的事情，而是需要非常认真的态度，科学地进行严格的试验和分析。新治疗方法能够得到应用都需要经过从发现到临床研究的过程。而样本量的计算是临床研究的基础，准确的样本量才能提供一个可靠的研究结果。

2、临床研究中样本量估算的误区

临床试验报告中有无预先的样本量估计是评价试验质量的重要依据之一。

一般情况下，在试验设计阶段必须确定研究所需的样本量。理论上, 验证某一干预措施与对照之间的差异, 样本量越大则试验结果越接近于真值, 其结果就越可靠。但由于资源的限制和伦理的原因, 临床试验的对象数量不可能做到无限大。很不幸的是，评审专家和委员会经常会因为某项临床研究的检验效能（power）不够或者样本量不足而拒绝这些新方法的提案。其实，仅仅因为检验效能不够或样本量不足就拒绝这些临床研究是一种错误的观点。

事实上，不符合统计学传统要求的小样本量临床研究也有其优点。首先，对于创新型研究而言，疗效并不完全肯定，为了保护受试者的利益，应该进行小样本量研究。其次，样本量小可以节省企业研究经费。最后，若小样本量研究肯定了药物疗效，可以让企业少走弯路，节省人力物力。实际的样本量是由两种因素决定的，一个是企业实力，一个是患者数量。医药企业的实力直接决定着临床试验的样本量，同样疾病的发病率和患病人数也决定着研究的样本量大小。这样对于每一项临床研究样本量的估算都是一项挑战，需要研究人员充分考虑实验方案的可行性和受试人群的特点进行样本量估算。

对于早期临床研究而言，精确的样本量估算几乎是不可能的。首先，研究人员并不清楚疗效情况，没有办法提供一个准确的试验设计，如非劣性、等效或者是优效试验。在假设估算过程中，小的差别会导致样本量上很大的不同。此外还有两个决定样本量的重要因素，即研究经费和研究的可行性。在早期转化研究中，每名受试者的费用都很高，有时会高达上万美元；而从保护受试者角度出发，仅仅是为了满足统计学的要求，将一种尚未得到初步验证的干预措施（如药物）在相当数量的人群进行试验，必然会导致一系列伦理问题。最后，研究者也不可能预测在首次干预过程中发生的情况，所以通过传统统计学要求计算出的样本量不能充分反应研究的潜在价值。

#p#副标题#e#

3、解决样本量预估问题的错误方法

审评、批准的早期转化型研究都期望以标准检验效能为基础计算样本量大小。通常，研究者也是通过检验效能来判断样本量大小，但是由于其他原因如研究经费、可行性等原因需要重新确定样本量。在临床试验过程中，在某种假设条件下，任何一个样本量都能产生80%的检验效能。其实为样本量的大小提供一个合理的解释很容易，主要在于表达方式的选择。比如省略任何一个如何决定样本量的论述都可以解决这个问题，再比如将临床研究标记为初探性（pilot）或者探索性（exploratory）研究也可以省略样本量的预估问题。但是这些表达方式并不能解决样本量的根本问题。

4、创新转化研究中采用小样本量的合理性

事实上，对于创新转化研究，小样本量更合理。

在1965年，Cohen提议用80%的检验效能来计算样本量大小。但是，对于每一项研究而言，必须有80%的检验效能这一传统统计学要求是没有理论和经验依据的，而且非常武断。遗憾的是，尽管最近有文章指出这个统计学要求仅仅是一个传统，但对这个传统的一些挑战却未引起有力的响应。

在转化型临床试验中，不考虑费用和其他实际因素，设置一个必须满足的目标，追求更多的样本量就会忽略边际报酬递减（diminishing marginal returns）的现实：每增加一个受试者所增加的研究价值相比以前更少。同花费更多的大规模研究相比，最经济有效的研究是小样本量的研究，后者更有科学价值、更合理。尽管科学研究的预期价值很难事先确定，但是对于任何一个合理的确定的研究而言都会存在边际报酬递减规律，包括统计的检验效能。边际报酬递减规律看似并不会对临床试验产生很大的影响，但传统80%检验效能的要求是与之相违背的：在一定时间内，其他条件不变的情况下，当开始增加样本量时，边际效用会增加，即总价值增加幅度大，但总价值累积到相当样本量后，随样本量的增加总价值会逐渐减少。有统计分析数据表明，创新型早期临床研究的边际报酬递减特别明显，这也提示，对于这类研究，小样本量的性价比更高。

在临床研究中可能会出现3种不同的结果：研究成功-突破点、研究失败和不确定性结果。通过考虑3种不同的结果也可以对研究样本量进行论证。

当进行一项早期研究时，研究者总是希望通过这项研究找到新的治疗方法或者是一个有前途的研究方向。尽管在历史上这种研究比较少，但是这样的研究往往都是开创性的，如胰岛素治疗的发展、天花疫苗的发现和第一次对HIV的治疗，这些成功的治疗方法在人类疾病的预防和治疗上都占有重要的地位。在这些例子中，开始进行的研究都是在一个受试者或者一个家族中进行,增加再多的受试者也不会产生更大的说服力。当最初的研究结果证明该方法是有希望的时候，研究者才会投资更多的资金用于大规模的研究，证明这个新方法的有效性，从而形成一种临床治疗上的干预措施，广泛应用于人群。

确认最初研究结果的独立性也是非常重要的。在大多数情况下，即使是好方法也很难达到预期的目标，增加再大的样本量只会造成更大的资源浪费。尽管预期目标没有达到，但是失败的结果也有重要的研究价值：可以通过更小的样本量来证明这个失败的结果，防止其他研究者找错研究方向。最近一个小样本量的研究受试者只有一人，该研究指出溃疡性结肠炎患者吞食寄生虫卵后病情好转。尽管该样本量很小，P<0.05，但这个发现引起了专家的兴趣，该研究结果发表在《Science Translational Medicine》杂志上。对于一种新的治疗方法来说，研究者是不可能预测3个不同的研究结局的。

#p#副标题#e#

5、如何更合理地预估转化医学研究的样本量

有专家建议，对于临床新方法的早期研究应该找到一个新的方法替代以检验效能为基础的预估样本量。目前常用的几种替代方法有：“信息价值法”（value of information）、利用两个因素产生的9种可能性来预估样本量、通过计算费用和边际报酬递减来预估样本量。

在现实中“信息价值法”（value of information）很少应用。这种方法就是选择一个可以产生最大价值和最小费用的样本量。对于创新型早期研究来说这种方法太复杂。

第二个方法，利用两个因素产生的9种可能性来预估样本量。这两个因素分别为临床研究所产生的预估有效性（estimated effect）和可信区间（confidence interval）。临床研究会产生3种不同的预估结果:即有希望的治疗方法、无效的治疗方法和无法确定的治疗方法。研究背景的不确定性即容易判断、高不确定性和低不确定性。这种方法是讨论在每一种可能性的情况下临床研究所产生的价值。

最后一种方法主要是通过费用和边际报酬递减来选择样本量的大小。通过这种方法预估的样本量不能简单地用“够”或者“不够”来评价。因为通过这种方法预估的样本量比大样本量所产生的价值更显著。尽管一个研究的预期价值很难去量化，采用边际报酬递减来预估样本量就不需要进行预期价值量化。对于早期研究而言，通过这种方法产生的样本量被称为nroot。在不同可能的样本量情况下由预计总费用来决定，然后选择样本量，即采用总费用同样本量的平方根的最小比值。如果研究总费用是每一个固定费用和每一名受试者费用的总和，那么这种方法特别简单，是不依赖于样本量大小的。由于存在线性关系，nroot等于总固定研究费用除以每名受试者增加的费用。用nroot方法计算样本量特别适合对费用比较重视的创新型研究。增加每名受试者的费用就会减少nroot值，这反映出对于一些每名受试者所需费用比较高的研究样本量必然会减少。当每名受试者所需费用极端高时，样本量可能只有1，即只有一名患者参加该研究。在这样的情况下，大样本量是不切实际的想法，专家和资金赞助者必须在小样本量和高额研究费用中做出选择。尽管专家推荐用nroot来计算创新型研究的样本量，但是也要声明样本量比nroot大的研究也是合理的，特别是当这个新方法有希望达到好的治疗效果时，增加样本量可以产生更大的价值。对于某些创新型研究大样本量也是适用的。

上述所提供的方法研究者都可以采用。当然最简单的选择样本量的方法就是参考以前的相关研究来决定样本量大小，虽然这种方法容易被大家接受，在很多研究中也适用，但是缺少理论依据。

#p#副标题#e#

6、早期研究结果的统计分析、说明和发表

正式的统计学假设检验规范已经形成，主要集中于p值是否小于0.05。这种方法已经被批判为一种不可靠的、浪费资源的方法，对科学发现和进展是有害的，与统计学理论是相违背的，但是在研究领域仍旧根深蒂固。在预估样本量大小的问题上已经存在的条条框框特别不适合早期、高创新型研究。在创新型研究里，非预期发现的可能性非常高，这种发现的解释通常集中在评价疗效和不确定性上（通过可信区间表示），以及对于结果是否具有相关的、合理的生物学解释上。

为了防止科学记录的失真，研究者应该经常报告结果，即使研究结果让研究人员很失望时也要进行报道。当一个研究很小且是纯理论的研究的时候，对结果的报告更容易被忽略。虽然选择性报告结果能增加小型的、创新性研究的比例。但是随着结果的公布，小样本量研究也可能会造成一种假象，即假阳性结果。

有些杂志更倾向于发表阴性结果的研究。这样小样本量的研究就不再需要符合传统统计学上的要求。对于创新型研究，需要鼓励研究者花更少的钱，得到准确的研究结果并将结果公布于众。

总结

转化医学（Translational Medicine）也叫转化研究（Translational Research），是近几年国际医学领域出现的一种新概念。1992年，美国《Science》杂志首次提出“从实验室到病床（Bench to Bedside）”的概念，1996年，在《Lancet》杂志上第一次出现了“转化医学”这个名词，2003年 NIH的Zerhouni在《Science》上发表文章 “The NIH Roadmap”后，引起了学术界对转化性研究的高度重视。转化医学是把生物基础研究的最新成果快速有效地转化为临床医学技术的过程，即从实验室到病床（Bench to Bedside）再从病床到实验室（Bedside to Bench）的连续过程，简称为“B-to-B或B2B”。转化医学有助于理论与实践的结合，加快科技成果转化。最初的目的是打破基础研究与临床医学之间的屏障，实现基础研究成果向临床治疗应用的快速转换，促进基础研究成果快速为临床医学服务，为疾病防治和完善政府公共卫生政策服务。然而，传统样本量预估的要求增加了转化医学进行和完成的困难。至少80%检验效能的强制要求是没有根据的，特别是在早期转化型研究阶段。实际上费用和边际报酬递减才是决定样本量的关键，也更具有科学价值。

名词解释：

检验效能(power)又称为把握度，指当两个治疗组间疗效存在差异时，能正确发现差异的能力。例如power=90%表示：若两治疗组间疗效确实有差别，则若重复100次相同的临床试验，平均有90次能够把组间差别检测出来，得出组间差别有显著的统计学意义的结论。

边际报酬递减（diminishing marginal returns）：即在一定的生产技术水平下，当其他生产要素的投入量不变，连续增加某种生产要素的投入量，在达到某一点以后，总产量的增加额将越来越小的现象。（作者：马驰，刘荣军）

参考文献：《Science Translation Medicine》2012;3 (87) 87-124