临床试验是指任何在人体(健康志愿者或患者)进行的药物系统性研究,目的是为了证实或揭示试验药物的作用、不良反应和/或试验药物的吸收、分布、代谢和排泄,从而确定试验药物的疗效与安全性。临床试验的核心除了符合“科学”的原则,还必须符合“伦理”的要求,也就是说参加试验的是人,必须尊重其人格,试验必须符合受试者的利益,而且在试验期间,受试者不需要任何理由就可以不再继续进行试验。但是实际上,被强制参加者如囚犯或者在体制不健全的发展中国家进行的试验中的受试者很难进退自如。除了受试者自愿与否的问题,临床试验的计划、实施等过程中还存在其他伦理学问题。
一、过度应用的安慰剂与精心设计的临床试验方案
安慰剂指外形与真药相像,但是不含任何药理成分的制剂或剂型。《赫尔辛基宣言》规定,当不存在当前已经证明的干预措施,或由于令人信服的或科学上有根据的方法学理由有必要使用安慰剂来确定一项干预措施的疗效或安全性,而且接受安慰剂或无治疗的病人不会遭受任何严重的或不可逆的伤害的风险,才可以应用安慰剂。但是实际操作中很多试验并没有遵守这项伦理学规则。比如一项试验中的一组给予新药治疗,另一组给予安慰剂,两组均同时接受已经上市的有效药物,如果之前研究证实有另一种药物对此适应症有效,那么试验设计应同已经证实有效的药物而不是安慰剂进行比较。但是在抗TNF-α制剂的临床研究中,尽管已有研究证实其他药物与甲氨蝶呤有协同作用,研究者还是普遍采用抗TNF-α制剂同甲氨蝶呤联用与安慰剂进行对比。另一个例子是糖尿病药物的临床试验。已有研究证实,对于服用格列酮和二甲双胍的患者来说,同时服用依则那太降低空腹血糖和糖化血红蛋白的效果优于安慰剂。这种试验设计已经暴露出用安慰剂治疗的患者可能面临无效的风险,公平的方法应该是选择已经上市的众多抗糖尿病药物之一来进行比较而不是选择安慰剂。
基于对滥用安慰剂的担心,美国食品药品管理局(Food and Drug Administration,FDA)近期开始拒绝接受赫尔辛基宣言,指出安慰剂的应用必须符合科学的原则,这也引起了临床研究者的抗议。尽管没有官方声明,欧洲药品评价局(European Agency for the Evaluation of Medicinal Products,EMEA)在此问题上也与FDA执行统一原则。这种态度虽然不完全符合伦理学原则,但是其实有另一个解决办法:只要临床试验的设计基础是优效性试验,那么就不需要设计安慰剂组。
根据FDA与EMEA的数据统计,目前随机对照临床试验(Randomized Controlled Trial,RCT)采用非劣性试验设计的趋势逐渐增加。最近一项关于EMEA批准的抗癌药物的分析显示,21个批准新适应症的药物中仅9个进行了Ⅲ期随机对照试验,其中6项试验为非劣性试验。事实上非劣性设计无法确定药物真正的作用,这就存在一个伦理学问题——这种试验的唯一目的是利用患者获取市场份额。然而支持非劣性试验的研究者认为,患者并非总对相同的药物有反应,因此即使其他药物活性较低也可能非常有用。反对非劣性试验的研究者则认为解决这个问题的办法是选择对特定药物无效的患者进行新药与安慰剂对比的有效性评价。
也有人认为,一种药物可能疗效为非劣性,而不良反应较少,不过有专家认为,这个问题可通过安全性优效性评价来证实。还有人认为,当药物依从性不好时,非劣性试验更能说明问题;反对者则反驳说,即使患者依从性良好,如果优效性试验证实结果不好也没有意义。此外,等效的意义也值得推敲。莫赫等报告说,对383项RCT的分析显示,64%的试验中仅当试验组与对照组差异在50%以上时会显示出疗效差异,而这其中有84%的试验此差异超过25%则两组会显示出疗效差异。幸运的是,近期药监机构对于非劣性试验开始关注:FDA宣布,非劣性设计的抗生素类药物不能获得批准;EMEA指导原则中建议不再接受抗帕金森药物及抗阿尔茨海默病药物的非劣性试验设计。
二、“严格的”入选标准和排除标准
许多临床试验的入选标准都优先考虑年轻男性。女性、儿童及老年人由于他们对于不良反应的敏感性问题通常被排除在外。然而,实际上老年人是接受处方药人群中的大多数。Rochon等对一共涉及9664位患者的治疗骨关节炎与类风湿关节炎的RCT进行分析发现,仅2.1%的患者年龄在65岁以上,仅14人年龄超过75岁。一则关于贝伐单抗和西妥昔单抗治疗转移性结直肠癌的健康技术评估报告指出,纳入的患者比英国患病人群的平均年龄年轻5岁〜10岁,这也让人们对这个结果的普遍性和真实性产生了怀疑。对儿童参加临床试验也有类似的考虑,试验中儿童的用药剂量通常都是根据成人剂量及体重计算来调整的,但是却忽略了一个事实,即儿童正处于生长发育期的身体对药物的反应可能与成人不同。令人忧虑的是目前处方给儿童或青少年的药物有大约50%从未进行过RCT。
三、不适当的参比制剂与混淆视听的终点
当新药与已经批准相同适应症的药物进行比较时,伦理学要求所选择的参比制剂必须是可选择药物中最好的,而且必须采取最佳剂量和疗程,但实际操作中并非总是如此。众所周知的一个例子是抗炎制剂研究中新型COX-2特异性抑制剂的参比制剂的选择,选择双氯芬酸作为参比制剂会掩盖罗非昔布的心血管毒性,而选择萘普生作为参比制剂则会揭露罗非昔布这一重要的不良反应。
另一个例子是器官移植抗排异方面,临床试验结果显示他克莫司比环孢素疗效更好,但是Schieppati等对环孢素的谷浓度衡量后发现,环孢素的剂量根本无法使血药浓度达到最佳。另外新型或第二代抗精神病药物通常被认为在锥体外系反应方面优于氟哌啶醇,但是Geddes等研究发现氟哌啶醇的锥体外系反应仅在剂量超过12mg/天的情况下发生。对150项随机试验的荟萃分析显示,新型或二代抗精神病药物声称的与老药相比的优势已经不复存在。而且与一代抗精神病药物相比,二代抗精神病药物疗效并没有增加,未改善特异性症状,而且也没有明显不同的副作用,也不太符合成本效益。这些例子生动地说明了参比制剂及其剂量的选择可以大大影响一项检测药物毒性或疗效的试验的结果。
生活质量、发病率与死亡率始终是新药评价的硬性终点,这是因为这些结果可以显著反映出治疗的效果。然而在某些情况下,与一个硬性终点密切相关的终点可能会被当做替代终点。由于治疗性RCT的疗程较长,相应的治疗费用也多,因此目前有一种滥用替代终点的趋势,这可能会产生误导。例如,如果选择高密度脂蛋白水平作为替代终点,则雌激素对更年期女性具有心血管保护作用,然而,大型RCT未能证实雌激素可预防任何心血管事件。辉瑞研发的新药Torcetrapib可提高人体高密度脂蛋白,但是却使死亡率增加。磺脲类药物可降低糖化血红蛋白,但是增加心肌梗死的风险。在上述情况下,如果将高密度脂蛋白或糖化血红蛋白作为替代终点,就会让我们误以为这两种药物疗效非常好。同样,抗癌药物对肿瘤大小的影响并不总预示着可增加整体生存率,因为也可能由于其不良反应而降低患者生存率。
另一方面,由于一些药物的疗效较高,因此想要证明一种新药的优势就需要较大人群及较长的年限,对此RCT现行做法是采用复合终点,也就是添加不同的事件作为观察指标来考量。例如,一种药物在心血管方面可能会增加心肌梗死及血运重建手术甚至死亡风险,然而,研究者可能声称复合终点血运重建手术比死亡或心肌梗死更加常见。一个典型的例子是氯吡格雷临床试验中,对于复合终点,氯吡格雷可显著改善冠状动脉闭塞,但是对再发性缺血与死亡却无显著改善。罗格列酮预防空腹血糖和/或糖耐量异常患者糖尿病的DREAM试验中,采用糖尿病或死亡作为复合终点。尽管两组死亡率无显著差异,但是复合终点统计学差异非常显著。根据复合终点的结果,按照标准操作,FDA将批准其上市,但是这就会造成一种误解,认为罗格列酮可以降低死亡率。
四、选择性发表结果掩盖事实真相
人们对药物疗效的理解很容易被选择性发表的结果所误导,这是由于阳性试验结果被发表的机会是阴性试验结果的3倍。Melander等发现在42项评价抗抑郁药物(5-羟色胺抑制剂)对5-羟色胺影响的研究中仅有25项被发表,这其中有19项为阳性结果,而仅有6项为阴性结果。由此可见,如果药物临床试验的阴性数据没有报道,我们很难获得客观的信息。近期Kirsch等人的分析间接证实了Melander的研究结果。Kirsch等能够获得所有FDA存储的已发表和未发表的研究数据,这些数据显示,选择性5-羟色胺抑制剂仅对严重抑郁有效,而对轻度抑郁无效,然而这些在科学文献中则无从体现。
对临床试验结果的选择性报告可能会使荟萃分析偏倚,促使结果有利于药物的有效性,并误导根据发表的结果制定的指导原则。另有一则关于临床试验结果选择性报道的分析显示,122篇期刊文章的3736项结果中,50%的疗效与65%的有害结果没有完整报告。
另外研究者也会选择性报道不良反应。据报道,二代抗精神病药物相对于吩噻嗪类及苯丁酮类的优势在于较少引起锥体外系反应,这也是二代抗精神病药物处方量快速增长的基础。然而随后有独立研究者证实,二代抗精神病药物导致体重增加,并增加血液中胆固醇、葡萄糖及糖化血红蛋白水平,所有这些均是心血管疾病和糖尿病的重要风险因素。昔布类药物因其较少的胃肠道毒性被认为是较好的抗炎药物,然而研究者花了几年的时间才证实昔布类药物增加心肌梗死和心衰风险,甚至无法确认昔布类药物可以降低胃肠道毒性。具有讽刺意味的是,由于医生对昔布类药物的盲目信任,英国医院中因昔布类药物导致消化道出血的病例显著增加。最终,生产厂家在FDA及EMEA反应之前召回了昔布类药物。
五、健康志愿者参加早期临床试验以及受试者的报酬饱受非议
我们知道临床试验分为四期,早期临床试验的目的是获得关于新化合物临床适应性的信息,而不是追求特定的治疗目的。健康志愿者在Ⅰ期临床试验中通常代表理想模型,目的是研究在没有其他病理条件干扰的情况下药物的药代动力学和药效学,并记录受试者安全性与耐受性。《赫尔辛基宣言》规定“人体医学研究只有试验目的的重要性超过了受试者本身的风险和负担时才可以进行”。然而健康受试者不同于患者,又该如何衡量试验目的的重要性与受试者本身可能的风险?对此各国药政部门没有统一的规定。出于对新药开发成本增加与伦理学的综合考虑,2006年,FDA发布了一个指导文件,规定首次应用于人体的药物需进行“0期”临床试验,即在传统的I期临床试验之前,招募一小群受试者(通常小于15人)服用低于治疗剂量药物,经过一周时间的服用来粗略确定药物的药效学和药代动力学的特性,研究者可以根据这些早期的数据来指导之后的研发工作。
由于临床试验的特殊性,受试者通常会获得一些经济报酬,这个报酬的界定也十分困难,数额过少则无法补偿受试者的不便及可能遭遇的风险,无法体现“公平”原则,也可能导致受试者入组困难;数额过多则有“引诱”受试者参加试验之嫌。比如南非医药管理委员会的政策是对临床试验的受试者采取统一的回报标准,即每次随访给予150兰特(约为21美元)。这个政策一直饱受非议,学者普遍认为这个报酬不适当,不同试验的受试者承担不同的责任却领取同样的报酬,忽视了不同研究设计及性质等突出因素的差异,违反了伦理学公平的原则,而且非企业资助的临床试验可能无法负担。此外,这个报酬被视为对受试者产生了一种“诱惑”,促使其加入试验中来。
根据医学规律和相关规定,通常一名受试者接受两次新药试验的间隔时间不能少于3个月。而“有偿的”临床试验也孳生了一个新的职业——职业试药人,他们往往隐瞒试药经历,而由于临床试验研究者对受试者个人资料严格保密,就使得职业试药人频繁参与临床试验,从而影响了数据的科学性。
六、利益冲突
可以毫不夸张地说,利益冲突是所有其他偏倚的来源。尽管影响因子较高的期刊都规定了作者需提交利益冲突声明,但是令人担忧的是,有时候我们会看到大多数文章公布的可能的利益冲突的名单非常长,甚至有时候篇幅比摘要还要大。如何有效避免临床试验的利益冲突,还有很长的路需要走。
结语
尽管在方方面面存在着众多争议,但是临床试验目前仍是评价新药疗效与安全性最好的方法。药品销售的巨额利润和“大型药企”在市场的主导地位往往会使药审部门在新药临床试验的计划、开展和评价中产生偏倚。因此,加快药政机构改革、改变药审部门所扮演的角色就尤为重要。另外,药审部门应考虑取消药理和临床数据的保密制度,并引入批准药品上市附加值概念,同时需要更多由公共资源支持的独立研究以挑战企业资助试验的结果。有学者认为药品批准不应该只依赖于生产企业提供的数据,近期BMJ杂志一篇社论建议在新药审评程序中,至少应该有一项重要的Ⅲ期临床试验由独立于制药企业的医生来开展。
对于有一长串可能利益冲突的论文,则需要鼓励医生仔细审视。同样,伦理委员会应更多地对试验方案进行评价,对于那些纯粹为了商业利益而不是病人需要的设计不予批准;学术界也应对选择性出版的问题给予更多关注;对于临床试验中替代终点或非劣性设计不能回答的重要临床问题,则应重新审视其试验设计。
只要临床试验存在,伦理学的争议就不会停歇,然而我们有理由相信随着新药审评制度、相关法规的不断完善以及生物医学技术的不断发展,临床试验将越来越符合“科学”和“伦理”的精神。
(作者:李晓晨)