人工智能、偏见和患者观点

现代观点

2021年12月号

卷首语

连续监测走向精准健康

医学进展

生活方式与健康

医学前沿

医学与社会

连续健康监测：实现精准健康的机会

现代观点

人工智能、偏见和患者观点

有争议的话题

对实验室培养人类胚胎的限制被取消

医学里程碑

人工智能、偏见和患者观点

作者：生命新知

人工智能（artificial intelligence, AI）算法的表现通常与医生的表现进行比较，但患者的体验如何？

机器学习在医学上的一些最令人兴奋的应用涉及传统统计模型无法分析的数据类型：医学成像、波形和视频。研究人员正在训练算法来接收这些复杂的信号，并输出医生的解释，例如，给定一张特定的视网膜眼底照片，眼科医生会识别糖尿病视网膜病变吗？基于数据集的算法将图像或波形与医生指定的“标签”配对，有可能提高效率和诊断准确性。然而，这种方法的优点也可能是它的缺点：通过匹配医生的表现，算法也将包含其固有的局限性。

以疼痛为例。几十年的研究表明，所谓的客观成像结果与患者疼痛报告之间的相关性很差。有很多关于压力和其他环境因素如何调节疼痛体验的研究。

这项研究经常被引用，涉及非裔和白人患者之间的“疼痛差距”，高于或超过影像学的严重程度，以及社会经济决定因素和不公正医疗体系中疼痛管理方式等因素所起的作用。

但我们所说的影像学严重程度是什么意思？例如，定义膝骨关节炎的一个常用分级系统主要基于20世纪50年代英国煤矿工人的数据。很明显，最初的报告甚至没有提到队列的性别或种族，可能是因为所有参与者都是白人男性。

使用成像数据的算法能否克服这种分级系统的一些限制？然而，标准的机器学习方法对于这样一项任务来说将会显得不足。通过训练一种算法来预测放射科医生对图像的看法，例如，Kellgren-Lawrence分级，我们也在限制。我们正在阻止算法超越医生的局限性和偏见。人工智能（artificial intelligence, AI）算法的表现通常与医生的表现进行比较，但患者的体验如何？

我们的研究产生了一种经过训练的算法，用于预测患者报告的膝盖疼痛，而不是医生对X光片的解释。与影像学严重程度的标准测量方法相比，这种方法解释了所有患者的疼痛，其对疼痛的解释对非裔患者或低收入、低教育程度的患者特别有益。相对于影像学严重程度的标准测量，该算法的更好表现来源于它从中学习到的患者群体的多样性。

该算法还可能有助于解决膝关节置换手术中的差异。在这项研究中，我们复制了膝关节置换手术资格的临床指南，但用算法的严重性评分代替了放射科医生的判断。这样做使非裔患者有资格接受膝关节置换手术的比例翻了一番。

对于人工智能的医学应用，这里有两个关键的教训。首先，算法可以扩大种族偏见，或者与之抗争。哪一个取决于我们在训练算法时所做的技术选择和实例化的值。我们是教他们听医生还是听患者的话？我们越能将算法与患者的经历和结果（而不是医疗系统对待患者的方式）联系起来，算法就越能纠正而不是强化不平等。

其次，通过训练算法预测与临床结果相关的标签，而不是医生的判断，我们可以开始推动一种新的临床科学。例如，通过将患者关于疼痛的报告建立在客观影像学特征的基础上，我们可能会对引起疼痛的原因有更全面的了解。通过不以医生为中心并结合患者的观点，机器学习增加了揭开医学重要奥秘的潜力。

参考文献：Obermeyer Z, Topol EJ. Artificial intelligence, bias, and patients’ perspectives[J]. Lancet,2021,397:1254.