公共卫生研究方法—— 从观测数据中加强因果推断

医学与社会

2022年01月号

卷首语

一个可怕的后果根据西方国家死亡率创二战后新高的事实推断

医学进展

医生日记

虚拟护理可减轻患者术后疼痛和药品差错

生活方式与健康

医学前沿

医学与社会

现代观点

抗衰老饮食：分清虚实

医学里程碑

COVID-19 专题

公共卫生研究方法—— 从观测数据中加强因果推断

作者：生命新知

确定许多卫生干预措施的有效性和安全性将继续依赖于观察数据，因为随机试验并不总是可行、符合伦理或及时的。使用观察数据对目标试验进行明确模拟有助于消除不必要的偏差来源，以便关注非随机化导致的潜在混淆偏差。

明智地选择可能的行动方案需要了解这些行动的影响。因此，公共卫生和医疗决策者需要合理的因果推断，以了解什么是有效的，什么是有害的。决策者更喜欢基于随机试验的推论，因为随机分配治疗策略预期会产生可比较的治疗组，从而使结果差异归因于不同的治疗方法，而不是先前存在的组间差异。

事实上，对于每一个关于因果关系的问题，推断的目标都可以被指定为一个能够回答这个问题的随机试验——“目标试验”。但我们无法进行足够的目标试验，来回答所有人群中所有治疗策略和所有结果的所有因果问题，试验可能需要几年才能完成。

如果必须做出决定时不存在适当的目标试验，则因果推断可能需要依赖于观察人群数据（例如，常规医疗过程中产生的电子病历）。由于观察数据的因果推断可被视为模拟目标试验的一种尝试，因此问题不在于观察数据是否应用于因果推断，而在于如何最有效地使用它们。

因果推断包括指定一个因果问题并回答它。该问题以目标试验方案的形式阐述，该方案包括合格标准、治疗策略、治疗分配、随访的开始和结束、结果、因果对比（或评估）和数据分析计划。这些要素定义了因果问题以及如何回答；然后根据方案进行目标试验。

对于使用观察数据的研究人员来说，指定问题的一个有用方法是设计能够回答它的目标试验，然后尽可能地模拟方案。模拟随机化通常需要与治疗决定相关的预后因素的数据。如果所有这些混杂因素都得到了正确的测量和调整，那么随机试验和模拟随机试验的观察分析之间就没有什么区别了。目标试验模拟或其逻辑等价（logical equivalents）的思想是20世纪发展起来的因果推断方法的核心；哈佛大学公共卫生学院的James Robins将其概括为包括长期持续的治疗策略。

使用观察数据模拟的目标试验必然是缺乏安慰剂、盲治疗分配和盲结果确定的实用性试验——这些设计特征在真实世界中并不存在。因此，观察数据并不适合于不能用实用性试验来表达的因果问题。该表（表1）概述了目标试验及其观察模拟方案的要素。目标试验模拟的原则适用于任何因果问题，这些问题可以转化为充分明确的干预措施之间的比较。

在艾滋病毒治疗作为预防策略的故事中可以找到一个从观察数据得出因果推断的例子。2010年，全世界数百万人感染了艾滋病毒。由于还没有疫苗，减少传播的一个可能策略是立即治疗任何艾滋病毒检测呈阳性的患者（因为抗逆转录病毒疗法降低了病毒的浓度）。然而，美国指南建议对无症状人群开始治疗，CD4细胞计数为每立方毫米350个。由于担心药物毒性和累积耐药性，不建议在每立方毫米500个细胞或更高的浓度下早期启动治疗。改变指南的决定需要早期治疗有效性和安全性的相关证据，但没有随机试验产生这一证据。

2011年，利用观察数据，美国临床指南开始建议以每立方毫米500个细胞开始抗逆转录病毒治疗。早些时候，来自一个国际艾滋病观察队列联盟的数据被用来模拟启动抗逆转录病毒治疗的各种策略的目标试验。分析表明，早期开始治疗导致艾滋病和死亡风险达到最低，这一发现后来通过早期与延迟治疗的随机试验得到验证。

这个例子说明了随机试验和观察分析在因果推断中的互补性：在随机试验的评估可用之前，观察数据的效果评估用于临时决策，随机试验评估用作观察分析的基准。在模拟产生接近基准的结果后，对回答随机试验未考虑的因果问题的扩大观察分析有更大的信心。在这种情况下，观察队列也被用来模拟有结果的目标试验（死亡、耐药性）和在随机试验中无法精确研究的亚组（50岁以上的人）。在缺乏充分的目标试验模拟的情况下，研究类型之间的这种相互作用可能会失败：没有指定目标试验的观察分析导致对早期抗逆转录病毒治疗的益处估计过高。

传统的观察数据分析通常基于“暴露”组和“未暴露”组的人员时间（person-time）分配，而不是目标试验的明确说明和模拟。由此产生的估计可能与相关的因果对比不符，因此可能不容易映射到真实世界的干预措施。这种缺乏可采取行动的因果推断的现象经常出现在医学和非医学因素的传统分析中。明确指定和模拟目标试验的一个重要原因是比较有明确的行动方案，这有助于决策者。

模拟目标试验的另一个原因是避免因分析中错误处理随访开始（时间零点）而产生的选择和永久时间偏差。通常，在随机试验和观察数据的因果分析中，每个参与者的时间零点必须是他们符合合格标准并被分配到治疗策略的时间。这一规则在随机试验和模拟目标试验的观察分析中自动执行。偏离这一规则的观察分析得出的结论后来被证明是错误的，他汀类药物降低了绝经后女性的患癌风险，雌激素加孕激素治疗降低了患冠心病的风险。尽管有时是适当的，但偏离这一规则的情况必须根据具体情况加以说明；例如，考虑到从暴露到结果之间的较长时间，吸烟对肺癌的影响可能被大致量化，即使人们从开始吸烟时就没有被追踪。

由于缺乏随机化，观察性分析中的因果效应估计常常不可信，这可能会由于不可比较的治疗组而导致混淆评估。混淆是一个严重的问题，但许多广受关注的观测失败都是由于对时间零点的错误处理造成的。事实上，对明确模拟目标试验（从而正确处理时间零点）的观测数据的重新分析得出的估计值与上述示例中随机试验的估计值一致。也就是说，观察数据足以近似模拟随机化（即调整混杂）；失败是由选择和永久时间偏差造成的，这些偏差可以通过明确模拟目标试验来避免。或者，这些偏见可以通过认真应用因果推断和研究设计的原则来避免，但目标试验方法有助于实现这些原则。

然而，目标试验模拟本身无法克服来自不可比较治疗组的混淆偏差。尽管正确模拟了目标试验的所有其他组成部分，但如果不能充分调整混杂因素，观察分析可能无效。复杂的调整方法有时是必要的，但只有在有关混杂因素的良好数据可用时。机器学习和人工智能方法无法弥补缺失的数据。

当观测数据库中没有混杂因素数据时，某些因果问题不可能得到回答。例如，保险索赔数据库可能不足以估计预防性干预措施对全因死亡率的影响。在观察分析中建立保障措施（如阴性对照）很重要，以便在混淆的危险太大时提醒调查人员。对于涉及干预措施（如抗高血压治疗）的因果问题，混淆调整也是不可行的，这些干预措施几乎完全由具有结果风险因素（如心血管疾病）的人使用。

当有关混杂因素的数据不足时，研究人员有时可以使用工具变量估计等方法，用其他强不稳定条件代替调整混杂因素的需要。对于在人群中新实施的干预（如政策变更或新计划）效果的因果问题，在某些条件下，可以通过干预前和干预后的比较来代替对每个人混杂因素数据的要求。对于涉及人群中人与人之间相互作用或系统效应的复杂因果问题，观测数据集本身不能用于模拟假设性目标试验。例如，试图量化控制美国阿片类药物流行的干预措施对个人和社会的影响，需要模拟模型将观察和实验结果与社会结构和卫生系统的假设相结合。

明确的目标试验模拟增加了观察效果估计的透明度和可重复性。通过在观察分析报告中包括对目标试验方案及其模拟的描述，研究人员准确地报告他们正在估计哪些因果效应，以便我们能够准确的重复尝试。此外，明确的目标试验规范对数据分析施加了限制，减少了多重比较和选择性报告结果。还可以防止数据操纵导致与任何相关干预措施都不符的难以解释的估计值。

参考文献：Hernán MA. Methods of public health research-strengthening causal inference from observational data[J]. New England Journal of Medicine, 2021,385,(15):1345-1348.