电子病历与临床试验数据的融合

电子健康记录（electronic health record，EHR）包含多种形式的临床数据，这些数据对于比较疗效学研究及临床结局研究具有重大的潜在意义，从而对治疗方案的优化，以及医疗资源的最优分配起到辅助作用。但是，EHR最主要的数据存储形式是非结构化的描述性数据，无法直接与研究与质量改进所需的数据进行对接。临床研究数据库是另一种独立开发出来的包含确定结构数据的数据库，它与临床研究相关，但无法直接应用于临床的日常实践。这两种数据记录方法的分离造成临床研究和病人护理的效率低下，并且限制了卫生系统的学习。为了促进更好的研究和护理以及更合理的医疗资源分配，我们需要一套临床数据整合的有效方案。在这里，我们强调通过整合途径和先进的方法来突破这一瓶颈。

一、问题根源

临床信息，包括EHRs和其他电子化的临床数据源，具有促进比较疗效学研究的潜力，从而有助于提出有效的治疗策略，并对稀缺的医疗资源分配起到指导作用。这就是美国国立医学研究院提出的“学习型健康系统（learning health system）”的设想，是“旨在建立和应用容纳每一位患者及医疗机构的协同医疗系统，将医学发现根植于患者护理的过程当中，并确保医疗的创新、质量、安全和价值。

然而，要想实现这些美好的目标需要多年的努力。众所周知，EHR主要是与病例相关的特异性文件管理和访问系统。因此，EHRs的目的是捕捉和检索非结构化的、描述性的数据。电子健康档案一般包括诊断、处置编码或实验室检测结果的文档。对EHRs的检索、处理、分析和报告或合并各机构的数据现在受限于数据标准或互操作性的缺乏。

如果想要使卫生保健系统发挥最大的转化潜力以产生新的知识，首先应当先解决上述问题。这种努力将需要多个层面的协调，包括国家政策的制定；信息专家建立可以互相沟通的信息技术基础设施；研究人员和统计人员将不仅仅是使用者，在某些情况他们也是临床数据的开发和分析者，此外，卫生保健从业者需要改变临床数据的操作方法。

二、促进互通技术的发展

数据标准的缺乏是研究和临床数据整合的最大障碍之一，它阻碍了系统之间的互操作性。目前已有若干举措以解决这个问题。

卫生信息技术促进经济和临床健康（Health Information Technology for Economic and Clinical Health，HITECH）法案制定于2009年，专注于医疗信息技术采用和有效使用。医疗保健信息技术标准委员会最近确定了从EHRs的临床研究数据库和登记的标准数据流。国际委员会正在开发标准和法规来实现多国互认的过程。例如，一个多学科的、非盈利性标准制定组织——临床数据交换标准协会，已开始着手打造全球数据标准，以简化研究与医疗保健间的转化。EHRs的临床研究项目，由欧洲创新药物计划资助，则旨在提供能为临床研究重复使用的、适应性强、可重用性和可扩展的EHR系统。

但这些举措绝非一朝之功，而结果现在还不明朗。即使在若干年后这些措施已经成熟，每个医疗机构仍然需要一个本地化的解决方案能够契合自身的需求及成果。

三、扩大渠道

因为迫切的需求，目前出现了几种替代的解决方法，使EHRs中的信息能在比较疗效、临床疗效研究和转化研究起到应有的作用。这些方法包括EHR数据资源库、科研机构的数据仓库以及可扩展存储和分析数据的框架。许多EHRs 已经发展出能够将分散的数据存储在大型临床数据资料库中的能力，如Epic的Clarity（Epic系统，维罗纳，威斯康星州）的离散数据存储方案。但尽管从一个系统移动到另一个数据库的数据提取过程正变得更加容易，EHR数据存储机制的复杂使得研究人员仍然需要专家的帮助。

那些以机构为基础的数据仓库包含了EHRs数据和其他临床系统，如账单以及仅对授权用户开放的室验室系统。不可识别数据通常是立即可用的，可识别的数据需要机构审查委员会（institutional review broad，IRB）的批准和监管而后下载。由于自动查询工具受限于数据的内容和复杂性，该工具往往仅限于查询患者究竟属于哪个临床研究。这些仓库的系统架构使用内部产生的数据映射，这限制了其在机构外的可扩展性。

知识计划（Knowledge Program，KP），克利夫兰诊所的机构数据仓库的重点是最大限度地提高可用于临床研究的EHR为基础的临床数据数量和质量。患者报告的数据收集主要通过使用电子表格在门诊时进行录入。目前，每个月有26000条临床数据是通过该系统收集的。在患者接受治疗的过程中对患者数据的系统性收集及标准化存储使该计划完全不同于其它流程。对于某一亚群的患者，后续的随访信息将进一步提高数据的完整性和代表性。患者报告的EHRs和其他临床系统的数据和临床数据都汇总于KP的数据库中，并能通过一个基于Web的查询工具来查询和下载。然而，KP数据仓库使用关系数据库模型，所以可扩展性是有限的。

可扩展的信息学框架使得数据得以在一个系统内和系统间扩展，例如癌症生物医学信息学网格（Cancer Biomedical Informatics Grid，caBIG）和生物学临床综合信息学（Informatics for Integrating Biology and Bedside，i2b2）。 caBIG和i2b2提供了一个标准化的框架，可以跨机构共享。这些大的信息学平台由于可以链接到外部的电子健康档案的数据元素，可能是未来临床研究和临床护理的数据结合的一种手段。

#p#副标题#e#

i2b2由美国国立卫生研究院（National Institutes of Health，NIH）及美国国家生物医学计算中心资助。i2b2致力于为客户提供一个可扩展的信息架构的方法，支持基因组学、分子和疾病为基础数据的管理及共享，以促进转化研究的目标。目前，超过60家机构正在使用的i2b2，而且这一数字正在扩大。在一些机构中，i2b2的功能还得到拓展。 i2b2平台提供了强大的基础设施及重要的数据采集和分享的功能。

由美国国家癌症研究所资助的caBIG计划则是为了提高研究人员使用和分享生物医学信息的软件和工具的能力而开发的。caGRID也提供了一个平台，形成了跨机构使用的集成框架。通过提供基础设施，caBIG允许数据贡献者进行数据共享，它使用标准化的接口，使用户可以以一个共同的方式表达关键的临床术语。但caBIG工具及其在癌症网络的基础设施面向较窄的一部分人群，大规模的复杂生物医学研究对caBIG提出了新的技术要求。

四、数据的转化应用

获得临床数据得以进行研究仅仅是一个开端。研究人员必须认识到，作为临床护理一部分的数据收集与作为更严格的临床研究项目一部分的数据收集存在根本性区别。

数据的偏差

在临床上所获得的数据集质量往往比专门用于临床研究的数据更为多样化。EHR的编制受临床上遇到的复杂性、医生的时间压力、不同的护理方法和文档样式和医学中固有的不确定性等多方面的影响。非随机的数据中的错误通常会导致系统性偏差，这可能会导致无效的结论。通过使用标准化的定义（这往往是一个传统的研究临床试验的基本要求），并增加数据采集的完整性，细致的数据收集完成可以减少这种偏差。

临床信息数据集的可用性

哪种临床研究可以取得进展取决于这种研究所需的临床信息的易获得性。临床上获得的数据，顾名思义，来源于病人护理过程中患者的临床表现及治疗计划和必要的信息准确记录。除了少数可被数字化的项目，大多数信息是自由的文本输入。诸如临床病程、疾病的严重程度以及最重要的患者的护理结果等数据元素，一般都无法形成一个统一的EHRs形式。因此，研究分析往往受限于相对粗糙的指标，如再入院和死亡等指标或实验室检测等替代指标。

对于许多疾病而言，目前甚至缺少有效地衡量结局的方法。而在传统的临床研究中，数据收集表格则能避免这一问题。 KP的一个主要重点是，采用病人健康状况作为报告的结果，这就大大提高了其在临床研究中的使用潜力。但是这种做法需要患者和医生的共同努力。

HITECH法案也许能通过提供经济诱因从而提高离散的临床信息的统一整合，以实现符合标准的EHRs，进行“有意义的使用”。HITECH所谓的一些“有意义的使用”包括要求使用医学系统化命名（Systematized Nomenclature of Medicine，SNOMED）作为术语集，并要求在记录诊断时使用“问题清单”来进入不同数据库内。

随访信息

EHRs所包含的任何随访数据都往往发生于随机的时间点，而在临床试验进行中通常是在某一变量的某个时间点获得的。EHRs中的这种随访模式是典型的非随机过程，这可能会导致系统性偏倚并导致不准确的结论。为了尽可能减小由于缺乏固定的随访日期而导致的偏差，在KP执行的过程中如果遇到选定的患者人群并未进行随访，患者将在预定随访日期的30天之内接到一个电话。相比之下，传统的研究试验则要求在已设定的时间点对患者随访，并尽一切努力以确保这些过程完成。

患者样本的代表性

当患者和疾病的特征与研究样本人群出现区别时，抽样偏差便可能发生。抽样误差通常会出现在来源于单一机构的her数据库，因为患者人群仅反映了当地的社会经济环境或特殊利益的医疗机构。虽然统计方法有时可以解决这一问题，调查者往往因此限制了研究结论。而那些入组的研究对象也不一定能够代表，虽然他们经过了入组与排除标准筛选，但这些标准却常常与现实临床上的情况并不相符。此外，同意参加临床试验的受试者可能与不愿意参加的病人有所不同，他们可能会得到更好的随访和结构化管理。

#p#副标题#e#

五、缩短差距

虽然临床来源的数据与基于方案的数据之间的差异给人们提出了挑战，然而，将更多的临床数据应用于研究的经济优势是巨大的。i2b2这类大型数据网络可提供更多的有代表性的患者人群进行分析。在美国，一个传统的临床试验的成本约为I期临床200万美元，III期临床1000万美元。费用的高昂使许多临床问题无法在在随机对照试验中进行评估。临床来源的数据以临床护理为目的，将这一部分数据再次应用于临床试验可以大幅降低研究成本。

对临床研究而言，整合临床和研究数据是至关重要的——将来源于国家医药研究中的新知识应用于患者和人群；有效开展新药和设备的临床试验来研发新型治疗方案；确定和比较不同卫生保健干预措施的价值。可供分析的数据目前实际上早已在病人的护理过程中被收集，这一趋势将通过电子格式得以真正落实。因此，目前大量的工作是在多个领域进行协调的数据系统，以更好地整合EHR数据与研究数据的应用。除了整合各机构的能力之外，这些系统可以识别患者的多中心研究项目，并发现新的基因组标记物之间的关系、家族病史、疾病表现。这些举措将解决病人代表性的问题，并增强执行群体水平分析的能力。

然而，这些措施无助于解决数据的完整性或以病人为中心的数据可用性信息等问题。一种解决方案是使用语言处理软件（Natural Language Processing，NLP）和类似的工具从自由的文本中来提取重要的临床数据元素。NLP的未来进展可能会允许对更复杂的结构数据进行提取，如病情的严重程度。然而，数据的提取将始终受制于临床提供医疗记录的详细程度。

如果我们要利用EHR变革，以改善病人护理、研究、质量改进和成本分析，最终用户是否容易产生、存储、获取临床信息是必须考虑进去的。有了这样的系统，大型实用临床试验可能最终取代传统的随机临床试验，而且推广每个病人的研究到群体水平也必将更加容易。然而，如果临床与研究数据系统没有进行整合，这后续所有的工作都是不切实际的。考虑到医学的进步、医疗保健支出的快速增长以及受到研究预算的约束，科研和临床信息的集成应被视为优先解决的问题。

（作者：李秋实、沈颖）

参考文献：《Science Translational Medicine》2012;4:1-4