探索和解释两项试验结果的差异

医学前沿

2017年09月号

卷首语

跑步与人生

医学进展

手机杂志

“生命新知”微信新闻目录 412期〜413期

医学前沿

现代观点

医学与社会

医生日记

120急救之夜：醉酒患者大闹急诊科

医学里程碑

全球大脑计划

探索和解释两项试验结果的差异

作者：马驰

过去几年，共纳入17114名参与者的三项大型、精心设计、严格执行的达标治疗（treat-to-target）随机临床试验已经完成，这三项临床试验包括控制糖尿病患者心血管风险因素行动（Action to Control Cardiovascular Risk in Diabetes，ACCORD）、皮质下小卒中二级预防试验（Secondary Prevention of Small Subcortical Strokes Trial，SPS3）和收缩压干预试验（Systolic Blood Pressure Intervention Trial，SPRINT）。这些试验探究了将治疗高血压的目标血压（blood pressure，BP）定在低于通常建议的血压值是否对预防心血管疾病（cardiovascular disease，CVD）和卒中具有更大的益处。这些试验在主要终点方面获得了不同的结果：ACCORD和SPS3试验未得出结论，但SPRINT试验支持更低的目标血压。已经有几个论点来解释试验结果的不一致：试验设计不同、治疗存在交互作用、随机效应等。因此，试验结果的解释有很大差异，支持者认为SPRINT提供了高质量、具有临床意义和统计学意义的证据，支持临床实践中的强化治疗。反对者认为，SPRINT是那些评估更低BP目标的试验（未发现总体上心血管事件的显著减少）中的“离群值”。这些试验包括高血压最佳治疗研究（Hypertension Optimal Treatment，HOT）（评估舒张压指标）、糖尿病和血管疾病行动：百普乐与达美康缓释片对照评估研究（Action in Diabetes and Vascular Disease:Preterax and Diamicron MR Controlled Evaluation，ADVANCE）（评估在高风险的2型糖尿病患者中的固定剂量复方制剂策略）或心脏结局预防评估-3（Heart Outcomes Prevention Evaluation-3，HOPE-3）（探究在具有风险因素的中度危险患者中的固定剂量复方制剂策略）。
最近，对来自32项大型对照试验的患者数据的再分析发现，治疗效果异质性（heterogeneous treatment effects，HTEs）（即治疗效果可能因个体患者或患者群而异）是时常发生的，且具有临床意义，但很少被研究。HTEs可以解释ACCORD和SPRINT中观察到的不同结果吗？值得注意的是，亚组分析未能发现在ACCORD中的9个预先指定的亚组与在SPRINT中的6个预先指定的亚组之间的显著交互作用。一个可能的解释是传统的“一次一个变量”的亚组分析缺乏捕获真阳性交互作用的统计学效能，因此容易产生假阴性（和假阳性）结果。这对于达标治疗试验来说尤其具有挑战性，在试验参与者中需要差异性的治疗强度来实现相似的治疗目标。
美国哈佛大学医学院的Basu及其同事提出了一种创新方法，使用微模拟模型来探索HTEs及其对解释不一致结果的潜在影响。该模拟能够设计几种场景，有助于探索和量化与患者结局变量相关的各种影响因素。使用美国国家健康和营养调查（National Health and Nutrition Examination Survey）数据来模拟每个参与者的特征，以匹配试验人群的汇总统计。校准模型参数，使得结局变量与两项试验的结果相匹配。研究者选择两个感兴趣的结局变量：CVD事件和CVD死亡。然而，CVD死亡相关的建模结果有更多信息量的原因有两个：使用更广泛的标准来定义模型中的CVD事件（包括9个组成部分的复合事件）；而在ACCORD试验中，CVD事件只包括CVD死亡、心肌梗塞（myocardial infarction，MI）和卒中；在SPRINT试验中，CVD事件只包括CVD死亡，心肌梗塞，卒中，非心肌梗塞急性冠状动脉综合征和心力衰竭；并且在各试验间发现CVD死亡相对减少（交互作用P=0.02）具有统计学意义，而CVD事件（交互作用P=0.21）之间差异不具有统计学意义。校准模型真实地复制了试验结果，并且建立了内部验证。研究者构建了两组微模拟实验。第一组是根据合理经验和病理生理学推理探讨了HTEs的5种潜在来源。第二组是通过模拟常规达标治疗设计对比多重方案随机序贯试验（sequential,multiple assignment,randomized trial，SMART）设计，来评估检测出大的HTEs的效率。
第一组微模拟实验的基础分析（base-case analysis）显示，达到的收缩压（<70mmHg时危害增加）和降压药使用量（每增加一种降压药使益处减少）所致的具有临床意义的HTEs可以解释试验结果的不一致。治疗前CVD风险、基线收缩压或达到的收缩压所致的HTEs很小，因为在这两项试验中这些因素的变异有限。值得注意的是，治疗前CVD风险和基线收缩压所致的HTEs的结果与常规亚组分析相似，常规亚组分析显示，这些协变量与治疗的交互作用无显著性差异。系数β的差异表明药物种数对CVD事件的风险比（hazard ratio，HR）的影响比对CVD死亡的HR的影响更大（β4：0.196 vs 0.013；药物种数从1变为2，2变为3，3变为4分别将模型中相应的CVD事件的HR输出量提高到0.61、0.80和1.0，模型中相应的CVD死亡HR分别为0.55、0.59和0.65）。相比之下，对于低于70mmHg的舒张压达标治疗对CVD死亡的影响比CVD事件更大（β2：0.206 vs 0.016；模型中相应的输出HR：2.93 vs 1.29）。因为41%的参与者在ACCORD试验中接受了4种或更多的药物（而在SPRINT试验中为24%），预计ACCORD试验相比SPRINT试验，CVD事件下降会减少（HR：0.88 vs 0.75）。类似地，由于在ACCORD中的平均舒张压为64mmHg，SPRINT试验平均舒张压为69mmHg；预计ACCORD试验相比SPRINT试验，CVD死亡事件的获益会有所抵消（HR：1.06 vs 0.57）。由于模型强制生成输出数据（重复试验数据）的方式，这些结果在多大程度上是“自我应验的预言”？75岁以上的参与者（SPRINT-Senior）是SPRINT试验提前设定的一个亚组，其分析结果得到了研究者的关注。强化组平均舒张压为62±2.8mmHg，比标准治疗组低5mmHg。然而，相比于标准治疗组，在强化组中，CVD事件降低了34%（P=0.001），CVD死亡率下降了40%（P=0.09），全部死亡率降低了33%（P=0.009）。因此，在SPRINT-Senior试验亚组中未观察到当舒张压小于70mmHg时模型预测的结局风险增加，这提出了关于估计参数的稳定性和模型的总体有效性的问题。模型的价值部分依赖于数据（可用于获得其参数）的质量和数量，在这种情况下，该模型受限于来自2项试验的标准治疗组和强化治疗组的2个汇总统计。
另外的见解来自SPS3的事后观察性分析（post hoc observational analysis），其最近报道了达到的BP（收缩压和舒张压）与卒中、血管事件和死亡率之间呈现J型关联。高血压的最佳治疗值为124/64mmHg，高于和低于该最低点都更容易导致结局事件（卒中）的发生。在缺血性卒中和主要血管事件方面，达到舒张压比达到收缩压更重要；然而，达到收缩压与死亡率有更强的联系。更重要的是，基线和随访1年使的药物服种数对关联并无实质影响。这些不同的观察结果表明有必要对模型进行外部验证。有超过项个试验可用于可靠地拟合模型，可能使模型的参数估计更加稳定。另一个选择是使用SPRINT试验的患者水平的数据（通过最近《新英格兰医学杂志》宣布的SPRINT Data Analysis Challenge获得）进行模型外部验证（www.nfais.org/the-new-england-journal-of-medicine-announces-judges-for-the-sprint-data-analysis-challenge）。
这项研究的结果提出了一个新的问题，即相比于传统的基于风险因素的多变量回归模型，微模拟模型能否更好的解释HTEs？然而， ACCORD试验或SPRINT试验目前并未报告所达到的收缩压和舒张压之间的关联，或药物使用种数与所得结局之间的关联，需要等待正式报告后才能解答这一问题。
第二组模拟实验的结果表明，使用达标治疗设计的试验来检验HTEs的统计学效能很低，并会产生偏倚的结果。相比之下，使用SMART设计的大型临床试验具有较高的统计学效能来检测和正确估计HTEs，因此将为降压药最优的个性化处方提供更好的临床证据。然而，这些模拟的结果只有在模型具有稳定的参数估计和精确校准（生成有效的输出）的情况下才是可靠的。尽管如此，SMART仍是一种有吸引力的设计，在包括肿瘤学、行为健康学、精神病学和成瘾科学在内的多学科中，已经被用于研究和开发适应性干预措施。但SMART在心血管预防和治疗领域的实施迄今为止仍然限制，这主要是因为研究者对该方法并不熟悉；缺乏监管机构的认可或指导；在管理、监测和分析这类试验方面具有更大的复杂性。疗效比较研究和精准医学的吸引力越来越大，Basu及其同事的研究结果将有助于促进这些新方法被更广泛的接受和实施。（作者：马驰)
参考文献：Annals of Internal Medicine 2017;166:370-372