2期临床试验得到了令人振奋的结果,结果3期试验失败的例子比比皆是,所以,从研发的角度出发,对2期临床试验的把关更加重要。标准是不是应该更严呢?
绝大多数的随机对照临床试验(RCT)是优效性试验,验证的假说是干预组的疗效优于对照租。实验结束,假说是否能够成立,评判标准是一级终点指标组间对比得到的P值。
如果P小于0.05,假说成立;P大于0.05,假说不成立,试验失败,作者没有得到证据说明干预优于对照。
《柳叶刀》杂志2019年4月11日发表的一篇论文,挑战了这条基本的统计学原则。
论文标题:
Stereotactic ablative radiotherapy versus standard of care palliative treatment in patients with oligometastatic cancers (SABR-COMET): a randomised, phase 2, open-label trial
癌症寡转移患者立体定向消融放疗和标准姑息治疗的对比:一个公开标签的2期随机对照临床试验。
这个研究的对象是99个癌症寡转移患者。具体入组标准是原发灶(不管是什么具体的癌症)得到了控制,有1个~5个转移灶。
这些研究对象按照1:2的比例被分成2组,人数少的这一组接受标准姑息治疗,人数多的这一组在标准姑息治疗基础上接受转移灶立体定向消融放疗。
研究结束,一级终点中位总体生存,对照组28个月;立体定向消融放疗组41个月。风险比0.57,95%置信区间0.30~1.10,P值等于0.09。
2级或者2级以上不良事件百分比,在姑息治疗对照组9%,放疗组29%,p值等于0.026;
治疗相关死亡,对照组33个患者无一例发生,放疗组66个人有3例,占比4.5% 。
作者根据这一组结果给出了2句话的结论。
第一句:
SABR was associated with an improvement in overall survival, meeting the primary endpoint of this trial, but three (4∙5%) of 66 patients in the SABR group had treatment-related death.
立体定向消融和总体生存改善相关,达到了试验的一级终点,但消融组66个病人中发生了3例治疗相关死亡。
这是一个非常奇怪的表述。既然是随机对照临床试验,得到的结果应当用因果关系表述。而作者说的是 “SABR was associated with an improvement in overall survival ”立体定向消融和总体生存改善有关。有关?什么关联?不知道!一个似是而非的表述。
第二句话:
Phase 3 trials are needed to conclusively show an overall survival benefit, and to determine the maximum number of metastatic lesions wherein SABR provides a benefit.
是否有确实的生存获益,需要3期临床试验予以证实。
《柳叶刀》是顶级综合医学期刊,论文应当达到的标准是:
1. 研究选题有重大临床价值;
2. 科学性方面滴水不漏;
3. 更加重要的是:研究结果有改变医疗常规的潜能。
在这篇论文中,立体定向消融在疗效上的潜在优势并没有得到证实,研究一级终点总体生存的风险比0.57,95%置信区间0.30~1.10,P值等于0.09,这样的结果说明:好像看到了改善的迹象,但实际经不起统计分析的检验。
一方面是疗效的潜在优势没有过硬的证据支持,另一方面,接受立体定向消融的治疗患者发生严重不良事件的比例更高,还有4.5%的治疗相关死亡。
这样的研究结果,没有改变医疗实践的潜力,没有任何一位正常的医生在治疗癌症寡转移患者时会根据这样的一组数据抛弃原来用的金标准姑息疗法,而改用立体定向消融。
这样的论文,别说柳叶刀这样的顶级综合医学期刊,就连肿瘤领域的JCO,放疗专业领域的绿皮书等它都不合格。事实上它却神奇地被《柳叶刀》接受发表。背后的原因,有这么几个:
利益关联。首先声明一下,这是笔者的猜测,没有事实依据、更没有可靠的证据,仅供大家参考。
1. 论文正文结束的部分有一个小节叫 Declaration of interest 利益声明,写明论文的4位作者接受了Varian Medical Systems 的基金资助和讲课费,但每个人后面都明确注明:“unrelated to this research project-和本研究项目无关”。大拿们钱拿了,自然会使出浑身的解数,但放在台面上和这篇论文“无关”,天衣无缝。这是作者层面上的。
2. 再看出版社:出版社不是慈善机构,需要挣钱,药企和器械商赞助是一个很重要的来源。出钱赞助可以有很多合法合规的手段,可以登广告、可以买大量的论文单行本送给医生,一方面做了市场,另一方面向出版社输送了利益。
出版社拿了钱,可发可不发的东西,天平就可能倾斜。
回到这篇论文,这篇论文有一点值得我们学习:作者了解并严格按照规范做事。
先看一级终点总体生存组间对比P值等于0.09。刚才我们说到业界通行的规则是P小于0.05。作者在论文中没有回避这个问题,而是给出了明确的说法:
In a phase 2 screening design, the α level is set higher than the 0∙05 level that is used for a phase 3 design, recognising that even if the phase 2 trial is positive (ie, if the ultimate p value is less than 0∙20), such a positive result is not usually considered definitive without a subsequent phase 3 trial.
鉴于2期临床试验得到的结果是阳性的,如果没有3期临床试验的验证,其结果还是不被大家认可、不被认为是确实的。
这句话讲起来非常拗口,说成大白话意思是:
反正需要后续的3期试验验证,所以2期临床试验标准可以放宽一点。
大家知道,新疗法的研究周期长,花费巨大,核心原因是先导药物或者先导疗法在研发过程中每向前推进一步,都会有很高的失败比例。
2期临床试验得到了令人振奋的结果,结果3期试验失败的例子比比皆是,所以,从研发的角度出发,对2期临床试验的把关更加重要。 标准是不是应该更严呢?
业界大多数人的看法是:推进到3期的标准不应当放宽而是应当收紧。理儿是这么个理儿,但作者并没有做缩头乌龟,而是给出了自己的看法,并且在文献中找到了一些支持这个说法的文章作为佐证。
写作的水准也非常高超,大忽悠但大多数人看不出来。人家能把黑的说成白的,我们连白的都说不好,那只能怪自己能力太差。
这篇论文另外一点更加关键的是:这个临床试验注册文件中写明:一级终点组间对比达标设定在P小于0.2而不是0.05。如果这个试验,注册中写的是P小于0.05,那以《柳叶刀》杂志高贵的身份,是不可能接受这篇文章的,它想帮忙都帮不上,如果在注册文件中没写的话,这里可能还有些余地,但是大家会不买账。
事实上作者是在注册文件里面写的就是小于0.2就算达标,现在做出试验完成得到的结果P等于0.09,那就可以说能够达标。
(作者:张科宏)