医学与社会
2019年10月号

医疗大数据时代的隐私

作者:杜泽一

大数据已经成为医疗创新的热门词汇。特别是机器学习和人工智能(artificial intelligence,AI)的迅速发展,有望使医疗从资源分配到复杂疾病的诊断都发生颠覆性变化。但大数据也带来了巨大的风险和挑战,其中就包括有关患者隐私的重大问题。本文将概述大数据给患者隐私带来的法律和伦理挑战。本文所讨论的话题包括,如何更好地理解健康隐私;公平、同意和病人管理在数据采集中的重要性;数据使用上的歧视;如何处理数据泄露;以及监管体系未来可能的发展方向。

大数据已经进入了医学领域。最近,机器学习和人工智能(artificial intelligence,AI) 的快速发展带来了更好的应用范例,涵盖从资源分配到复杂疾病的诊断等一系列细分领域。但大数据也带来了巨大的风险和挑战,其中就包括有关患者隐私的重大问题。

为什么我们需要健康方面的大数据?

长期以来,人们一直认为大数据将极大地改善医疗健康。但什么是大数据?为什么它很重要?大数据通常被定义为“三个V”:大体量(volume)、高速度(velocity)和多样性(variety)。所有这些都出现在医疗数据中。我们可以将大数据的研究分为两大类:长期实践的分析方法和使用机器学习和AI的新方法。

大数据能够对医疗质量和效率进行有效评估,从而促进医疗服务的改善。目前,许多医疗服务仍然未经追踪和分析;在治疗无效、大量浪费和医疗失误的持续证据中,了解哪些有效、哪些无效对改善系统至关重要。对此,大数据可以提供帮助:它可以用来衡量医院质量;发展科学假说;比较不同干预措施的有效性;以及监测药物和设备的安全性。

利用AI技术在大健康数据中寻找模式的新工具正在迅速发展,这些模式可做出预测和建议。这些工具中最有名的涉及图像分析,已开始进入临床应用。算法已经能够像训练有素的皮肤科医生一样准确地从图像中识别出癌性皮肤病变,在糖尿病领域则有IDx-DR系统,它最近获得了FDA的批准,可以基于图像对糖尿病视网膜病变进行AI诊断。更进一步说,AI可以用于预后判断——预测创伤患者何时会大出血,何时需要立即介入治疗,或者患者何时很可能在一年内死亡,据此可以考虑从传统治疗转向姑息治疗。

AI算法也可以为治疗提出建议。最后,AI算法可以帮助做出资源分配决策,这一点颇有争议。所有这些应用都需要大量的医疗卫生数据,包括患者的治疗情况、患者对治疗的反应,以及患者的个人信息,如基因数据、家族史、健康行为和生命体征。如果没有这些数据,就无法根据算法在后续训练中的表现对其进行培训或评估。

医疗卫生大数据的下一个发展趋势是学习型医疗系统的发展。在学习型系统中,临床研究和护理之间的传统边界被打破了——数据是在护理过程中定期收集的,其目的是将这些数据用于分析和改进护理。就像不断收集数据一样,还要不断分析数据以揭示护理过程的模式、可以改进的程序以及其他潜在的模式,如患者对不同治疗的不同反应。最后,这些新的见解通常会被纳入临床护理路径。至少在可预见的未来,预计人类仍将牢牢地嵌入学习-分析-实践的循环中。

如何看待健康隐私

隐私的概念很难界定。关于信息如何流动有一些规则,这些规则取决于所涉及的参与者、访问信息的过程、访问的频率以及访问的目的。当这些规则被违反时,就侵犯了隐私。当错误的人获得了对信息的访问,违反了访问信息的流程,或者访问的目的不合适,等等,都属于侵犯隐私行为。

侵犯隐私的负面后果  一个人的保险费会因为隐私被侵犯而增加;被侵犯隐私者会遭受就业歧视;一个人的艾滋病毒感染情况会被社交圈中的人所知晓……而且这些都可能带来情绪困扰,比如焦虑。

伦理道德问题  即使没有人使用某人的信息来攻击此人,或者此人甚至从未意识到发生了侵犯隐私的行为,却仍会有伦理道德问题。即使一个人没有受到伤害,他也可能因为隐私被侵犯而受到委屈。例如,假设一个组织不择手段或不经意地获得了对存储在智能手机上的数据的访问权,而手机里有你拍摄的令人尴尬的个人疾病照片,该组织意识到这些数据对他们毫无价值,并销毁了记录。你永远不会知道发生了什么。那些看你数据的人住在国外,永远不会遇到你或任何认识你的人。很难说你在结果意义上受到了伤害,但你失去了对数据的控制,数据被入侵,这本身就是道德问题,即使没有伤害。

采集数据

特定托管条款与全面条款  医疗数据的采集引发了许多法律和伦理隐私问题。让我们先看看美国对健康数据的处理,再将美国的方法与欧盟的方法进行比较。健康数据有多种不同来源:电子病历、保险索赔记录、物联网设备和社交媒体帖子,等等。美国隐私法对健康数据的处理方式不同,取决于这些数据是如何创建的,以及谁在处理这些数据,也就是说,谁是保管人。相比之下,《欧盟一般数据保护条例》为健康数据(以及其他数据)制定了一个单一的广义制度,无论其格式、收集方式或保管人是谁。《个人资料(私隐)条例》将“有关健康的资料”的范畴广义地定义为“与自然人的身体或精神健康有关的个人数据”。

美国法律关注的托管人是医生、卫生系统及其商业伙伴。管理健康数据隐私的主要美国联邦法律是根据健康保险便携性和责任法案(HIPAA)制定的隐私规则,也有州特定的隐私法律和联邦通用规则,保护研究对象。

根据HIPAA隐私规则,“实体”禁止使用或披露“受保护的健康信息”(PHI),除非在特定的情况下。PHI的定义很宽泛,包括大多数个人健康信息; 涵盖的实体包括大多数医疗保健提供者、健康保险公司和“健康信息交换所”。

HIPAA创建了一组规则,这些规则可以说既是对隐私的过度保护,又存在保护不足。在过度保护方面,虽然HIPAA允许将PHI用于医疗保健治疗、运营、支付、公共卫生和执法,但未经机构审查委员会(IRB)豁免或患者授权,不允许使用PHI。

至于HIPAA涵盖的健康数据,该规则也有漏洞。HIPAA最重要的策略之一,是在允许数据共享的同时,通过删除18个指定的标识符(如姓名和电子邮件地址)来识别患者的数据,从而保护患者的隐私不受侵犯。然而,通过来自其他数据集的数据三角剖分,可以重新识别已剔除的数据。此外,HIPAA的监管重点是特定的参与者及其活动,而不是数据本身。例如,一旦病人要求他们自己的健康数据——HIPAA给予他们这样做的权利——如果随后患者将这些数据提供给另一个人,HIPAA不限制使用或披露这些数据。

但更根本的问题是,大部分的健康数据根本不受HIPAA约束。在大数据世界中,HIPAA覆盖的数据源类型只是健康数据生态系统的一小部分。HIPAA不包括在实体及其业务伙伴之外生成的卫生保健数据,如人寿保险公司记录的卫生保健信息。它也不包括由病人以外的无数人或产品产生的健康数据。它不包括用户生成的健康信息,如血糖监测智能手机产生的数据。这种对医疗保健数据的关注与欧洲对更普遍的健康数据的监管形成了对比。

我们已经进入了一个未来,传统的医疗保健空间,即HIPAA覆盖的实体,正在被谷歌、苹果和IBM这样的庞然大物取代,所有这些都在HIPAA的体制之外运作。虽然,一些法律可能会保护这些数据的特定用途,但总体而言,目前在美国几乎没有什么可以保护患者免受健康隐私泄露的威胁。

公平的数据收集  另一个问题不是从病人那里获取了太多的数据,而是数据收集的不公平。已经证明,在警务预测分析中可能会出现数据挖掘上的偏差:警务中的种族差异导致对犯罪活动预测的种族偏见。不幸的是,健康数据也有许多相同的问题。大数据缺乏公平性的结果是复杂的,在某些情况下,它可能对数据丢失的人有利,但在另一些情况下,它对数据丢失的人不利。例如,考虑多个病人之间对稀缺医疗资源的分配决策。如果一个特定的少数群体实际上对医疗干预的反应不如其他群体,那么没有收集少数群体的信息可能会导致算法给予少数群体患者比包含数据时更多的优先级。如果少数群体的反应比其他群体更好,可能会产生相反的效果。然而,不管它以何种方式削减,结果都将是,该系统的预测将存在偏差。这是一个很难解决的问题,原因之一是预测分析领域对“公平”的定义存在争议,且不兼容。对此,一个解决方案是为缺医少药的人群提供更好的医疗服务。

患者在数据采集中的角色  在未经患者同意的情况下,个人数据在多大程度上可用于预测分析?一些健康数据是否可被看作是一种公共产品,被征用于一些公共用途?伦理分析在很大程度上取决于数据的类型,包括其可识别性、谁将访问它、为了什么目的。以一个数据源电子健康记录(EHR)为例,它剥离了18个HIPAA标识符。人们可能会对美国疾病控制中心(CDC)访问这些数据用于流感跟踪深表同意,而对医院系统使用这些数据来重新评估其人员配备和工作流程以提高成本效率和患者体验,或对制药公司使用这些数据进行产品开发却有不同的看法。

不管病人是否同意他们的数据被包含在一个集合中,他们应该在决定自己的数据怎样使用方面扮演什么样的角色?这是一个设计治理机制的问题——它关系到患者的隐私,大健康数据的许多隐私危害不仅出现在数据的采集中,而且出现在它们的最终使用中。在一个极端,可以让每个病人都能访问自己的每个数据——这种机制将最大化病人的自主权。在另一个极端,人们可以把数据视为完全“可剥夺的”,这样病人就没有控制权。然而,在许多情况下,最优的治理机制可能介于两者之间。比如,设立指导委员会,其中包括病人代表,决定哪些数据请求能被允许、在什么情况下被允许。一个类似的例子是用于批准或拒绝共享临床试验数据请求的独立审查小组。另一种稍微不同的方法是将数据交给信托,由受托人(其中包括患者代表)决定获取条件和批准用途。

还有一种方法是 “消费者驱动的数据共享”。治理还有许多其他的可能性,无论哪种方法,让病人代表参与决定如何使用他们的数据都是非常重要的。

数据使用

使用已经收集到的患者数据会引发哪些法律和伦理隐私问题呢?怎样解决?

数据引发的歧视  在医学中使用病人衍生的大数据可能导致一些不良结果。一组明显的客观危害来自歧视:如果雇主或保险公司从医疗数据中了解到病人的敏感信息,例如衰弱或疾病,他们可能不希望雇佣他或为该人投保,特别是在美国,医疗保险通常与就业挂钩。有人可能会说,在“精算公平”的原则下,这种类型的歧视是合理的,即每个人都应该根据自己的风险尽可能精确地支付或获得报酬——大数据可以让企业更容易做到这一点。这就提出了一个非常基本的问题,即是否应该支持“各尽所能”的观点,而不是更团结的保险观,即在某种程度上,我们通过保险统筹来重新分配。无论如何,我们在健康保险和就业方面的现行法律支持后一种观点,即禁止某些但不是所有的此类歧视。

其他负面影响  第二组隐私损害涉及更多的主观伤害。私人健康信息被公开的患者可能会感到尴尬、偏执或精神痛苦。即使这些伤害可能没有可测量的外部影响——病人可能不会遭受经济上的伤害或者不会受到他人的羞辱——对他们仍然是伤害。

大数据还可能带来更多的负面影响。一个人在生活中有一部分只属于他自己,这一点很重要,除非与别人分享,否则别人是不知道的。有关健康的事实特别敏感和隐私。在某些情况下,大数据会令其他人直接获取一个人的健康状况——无论是通过无意的披露还是黑客的恶意窃取。可悲的是,大多数人都不知道他们的数据可能被用于什么用途。而且还有一个问题:一个人分享的信息可能会泄露另一个人的信息——这里指的是遗传亲属——而他们却不知道信息已经被泄露、分享了。

预测分析提出的一个更微妙、更困难的问题是,当对某个人做出推断时,这个人的隐私是否受到了侵犯。剑桥大学法学教授杰夫•斯科佩克认为,“数据挖掘通常通过推理的过程而不是直接观察或获取来产生关于人的信息,而推理并不是侵犯隐私,这既有法律依据,也有规范依据。”举个例子,如果一个人通过从妇产科医生那里偷取记录或者窃听电话来发现某个朋友怀孕了,这显然是侵犯了隐私。然而,如果这个人看到他的朋友在晚餐时停止喝酒、改变了饮食、体重增加了,据此推断朋友怀孕了,那就很难说这侵犯了隐私。问题在于,大数据分析是更像前者,还是更像后者。

一条勇往直前的道路

对上述侵犯隐私的反应可以是严格限制对患者数据的访问。在这种方法下,数据共享被限制在最小数量,数据或许只保留有限的时间,甚至故意混淆数据。然而,对数据访问的限制也会带来危害。

隐私过度保护的基本危害是它对数据驱动的创新踩下刹车。隐私保护限制了数据聚合,无论是纵向记录的创建,还是同一时间不同来源数据的整理,以及创新的数据使用。举个简单的例子,数据去身份认证是符合HIPAA要求的一种常见方式,但是当患者去看不同的医疗服务提供者,通过不同的支付人购买保险,或者在州与州之间移动时,去身份认证的数据很难连接在一起。不完整、支离破碎的卫生数据使数据驱动的创新变得困难,造成了技术和经济上的障碍。

有些方法可以在保护隐私的同时最小化创新的成本,这些方法应该被采用。在某些情况下,研究人员可以使用涉及假名化数据或差异隐私的技术,而不是识别数据。隐私审计可以确保适当的使用和安全标准,防止未经授权的使用。数据持有者应该是数据的管理者,而不是隐私的中介。但在很多情况下,隐私与创新之间的权衡仍然存在。

隐私与保密之间也存在问题。数据中可以产生许多潜在的创新,其中一些可能是极其有利可图的,例如一个算法可以准确地为患者选择癌症药物。革新者有动机对数据保密,以便在开发和部署这种有价值的创新时保持竞争优势。

可以肯定的是,很多医疗流程的内部运作都被行业机密所掩盖,对患者来说也非常不透明,但媒体对大数据和人工智能的关注以及它们的新颖性可能会让患者对它们融入到医疗服务中感到特别紧张。当大数据产生关于如何提供医疗服务的惊人见解时,医疗服务提供者和患者很可能会提出质疑,当涉及到机器学习和不透明算法时,信任可能更难产生。

另一方面,如果关心隐私的患者拒绝参与数据驱动的系统,那么这些算法可能根本就不会被开发出来。

大数据隐私的未来将对数据源、数据保管人、数据类型以及多源数据三角化的重要性非常敏感。但重要的是,我们不能想当然地认为隐私最大化是解决之道。隐私保护不足和过度保护对今天和明天的病人都造成了可认知的伤害。

(编译:杜泽一)

参考文献:Nature Medicine 2019;25:37-43

Copyright 1994-2015 Cinkate.com.cn All Rights Reserved 沪ICP备10014127号-5