循证医学(evidence-based
medicine,EBM)出现至今已有20多年的历史了。虽然EBM依靠的是细致的临床研究,对已发表证据的批判性评估和在方法学上严格而系统地回顾,而这些被认为是认识医学工作的模版,但是新型的“大数据”方法也提供了另一种诱人的替代方法。大数据是一种独特的“文化、科技和学术现象”,它的核心就是将能学习计算的机器应用到不同的大规模数据中。当诊所和医院拥有数量巨大的电子健康病历(electronic
health
record,EHR)数据和系统,就像IBM的Watson系统结合基因组学数据、已发表的文献,以及EHR数据可以指导癌症治疗时,产生医学证据的速度、数据源和方法正在发生根本性变革。临床研究人员很想知道是否、如何和为何要处理大数据。
数据、信息和知识
对于大数据方法的兴奋大多是来自于爆炸性获得种类不同的数据,而后者在体积、速率和形式上都是“大”的。一个典型的中年人的EHR数据几乎相当于莎士比亚全集的大小。移动传感器已经可以通过隐形眼镜来收集各种数据,比如:心率、地理位置和血压水平。社交网络和媒体数据已成为进入患者社会环境的一个新的窗口。然而,数据不等于知识:对于弥补大数据和循证医学之间的差距,理解数据、信息和知识之间的差别是很有必要的。
数据是原始的观察结果,其价值受到自身的限制。给一个原始的观察结果赋予价值(比如:糖化血红蛋白水平在8.2%),就是将它置于一个可以解释的上下文中,以产生信息(比如:糖化血红蛋白8.2%超出了正常范围)。数据和信息是与特定的情况(比如:人、诊所或国家)有关的,而知识包含了对世界的综合性陈述,后者对解释、预测或指导进一步行动是有用的(比如:具有高水平糖化血红蛋白的患者患有糖尿病,且有较高风险并发心血管疾病)。知识可能是显性的(比如:教科书或指南中的陈述)或隐性的(比如:临床医生的诊断策略),是通过对数据和信息进行应用性分析所产生的。因此,陈述知识必须提供相关证据,而这些证据要以支持性数据和分析的形式来提供。
证据是知识表述的基础
循证医学和大数据是产生证据的两个完全不同的方法。在传统的EBM中,提出一个假设并且通过一个研究来收集数据,然后用概率统计分析来支持相关的发现结果或知识表述。经典的随机、对照试验能产生有关因果推论问题的证据(比如:药物疗效),而其他研究设计主要回答诊断和预测因素(比如:诊断性检查研究或临床预测规则)或者疾病的自然病程(比如:队列研究)。目前,有关EBM的专业术语和理念体系已经深入很多代临床医生和临床研究人员的心中。
大数据从业者对EBM的专业术语并不熟悉。数据科学从业者一般来自于传统的计算机行业,后者是由数据驱动的,而不是假设检验。这种方法既没有原始的观察,也没有将知识的内容合并到证据的生产中去。因此,一个算法在一个数据库中会检测到一种模式,但没有办法能够识别出这个结果是否正确、虚假或受偏倚所影响。这就是EBM和大数据之间最关键的区别之处。EBM会优先控制在数据收集和分析中的偏倚并将内在效率最大化。与之相反,大数据方法很少涉及协议定向性数据收集,但其目的是将精准度和外在效率最大化,其格言是“数据越多越好,而不是数据更好最好”。偏倚这个概念在数据驱动的方法中是没有任何地位的,偏倚需要应用知识的具体内容来进行分析。传统的研究人员可以发现大数据认识论方法的错误,但随着2015年大数据分析的全球市场达到总计1250亿美元,没有任何东西能够将这些方法与临床研究进行隔离,同时我们也不想这么做,因为EBM和大数据的优势是互补的。
2种认知方法的协同性
对于某些事物状态的描述性研究,通过挖掘大型数据能够对传统调查和定量性研究进行补充。比如,描述有关对待人乳头状瘤病毒疫苗的态度可以通过对数千例受试者的传统调查方法来获取,或者通过对1亿3千万份英文博客中表现出的积极和消极情绪进行自动化分类来完成收集。
大数据方法具有扩展研究的能力,尤其对旨在分类、预测、建模和模拟的分析性研究而言。分类计算法能够作为诊断性检查,将一个患者分为疾病组和非疾病组。比如,通过分类计算210万份迷你博客文章,能够判断发件人是否有抑郁症,其准确率达到70%且阳性预测值为74%。正如以前瞻性预测法能判断借贷者今后是否有能力履行还款义务,这种方法同样也被应用于对疾病预后的预测。用于气候预测的建模和仿真模拟方法,也同样能应用于癌症增长或传染的建模。就研究的因果推断关系而言,随机试验的开展仍然是研究设计的金标准,但是非随机设计和因果学习计算法在某些情况下也可以提供证据。
因此,EBM从业者应该寻求与数据科学家合作,共同开发及获得新型、大规模不同的数据,并且应用机械学习方法来扩大他们的工具箱,后者能在某些情况下提供更便宜、更快速、更有效的方法来产生证据。大数据科学家一般来自于健康领域之外,应该寻求与临床研究人员合作,因为后者具有疾病知识,能够校正偏倚源并且识别出虚假的信号。EBM需要有计算大数据的能力,而大数据需要EBM认知的严谨性。结合这两种认知的方法,可以为扩大和加强临床医学知识基础提供最佳途径。
(作者:王敏骏)
参考文献:Annals of Internal Medicine 2016;164:562-563