芯片上的精准医学：大数据助力癌症研究

现代观点

2016年02月号

卷首语

人类是否应该改变自己的基因及命运

医学进展

医学里程碑

手机杂志

人物与学科

何大一：打破艾滋病死亡魔咒

医学前沿

有争议的话题

该不该编辑人类胚胎？

现代观点

医学与社会

医生日记

白衣天使想说爱你不容易

在他乡

妇女盆底功能康复在欧洲

芯片上的精准医学：大数据助力癌症研究

作者：梁星、贾玉华

在大数据时代，我们创造的和采集的数据量呈现爆炸性增长，同时，先进的高性能计算机技术和便捷的云计算技术的发展，给我们分析这些海量的大数据提供了巨大的契机。尤其是在恶性肿瘤的诊疗方面，大数据的分析为靶点寻找和药物筛选提供了新的机遇。

恶性肿瘤的特点及数据库现状

恶性肿瘤，是一组与基因突变有关的疾病，根据肿瘤细胞的起源不同，主要包括上皮来源的癌，和间质来源的肉瘤，但人们通常将所有的恶性肿瘤统称为“癌症”，本文后面所述“癌症”均代表“恶性肿瘤”。

大部分癌症起病迅速、缺乏有效的治疗手段、死亡率高，严重威胁着人类的生命与健康。如何早期发现、早期给予针对性的治疗，将有助于改善癌症诊疗的现状。大数据时代的到来，为这一想法提供了实现的可能。

癌症的发病概率呈现出一种类似于长尾分布的特征，也就是说，有一部分癌症，是由于某些特定基因的高频突变所致；但是更多的癌症，是由很多的发生概率极小的基因突变所致。收集、整理这些基因突变的信息，对于癌症的治疗与研究有着重大的意义。但是，由于许多诊疗机构的癌症基因样本拥有量有限，且不同的机构之间存在着相互竞争，再加上对病人隐私的保护等原因，导致了信息壁垒的出现，极大地延缓了癌症的研究进展。

除此之外，由于癌症的治疗周期较长，来自不同机构的医生和护士所书写的病历、病理报告、实验室检查结果、影像报告等医疗文件的格式不一，缺乏统一的标准，这给相关数据库的建立带来了很大阻碍。

令人欣慰的是，目前，很多机构和大企业在积极参与对抗癌症的战争，建立大数据，比如：IBM的人工智能癌症诊断系统，美国临床肿瘤协会启动的快速学习系统CancerLinQTM，以及谷歌（Google）所支持的、整合全世界肿瘤数据的Flatiron 项目，这些系统和项目的建立与开展，正在逐渐解决原来癌症诊疗大数据库无法获取和整合数据的问题。

大数据助力识别肿瘤基因靶点

在不同类型的肿瘤内部，具有非常高的基因多态性，并且它们具有大量未被揭示的驱动基因。通过对大样本的癌症患者进行基因测序，从而形成的基因组数据，这就是典型的医疗大数据。随着这些年来DNA测序技术的发展，许多研究机构收集整理了大量的癌症基因组学数据，通过对这些数据的分析，可以揭示发生在分子层面上的肿瘤驱动因素，并可作为药物研发的靶点。科学家可以全面、深入地研究癌症发生过程中的突变、基因变化和发生路径，从分子水平来精确描述病情，从基因的层面上来对癌症进行诊疗。

大数据结合具体病人的基因数据，使得针对个人不同情况的癌症精准医疗变成可能。

2014年底，美国重大科研项目“癌症和肿瘤基因图谱（The Cancer Genome Atlas, TCGA）”宣告正式结束，该计划于2006年启动，前后投入了近4亿美元，旨在绘制出1万个肿瘤基因组景观图。项目所获得的成功包括：在一些癌症的大部分组织样本中，确定了独特的基因组变化；根据特定的基因组改变或分子标记，区分肿瘤亚型，鉴定了新的恶性肿瘤相关的表观遗传学变化；开发了新的、或改善了原有的研究技术和分析工具。

芯片上的癌症精准医疗

来自西班牙的科学家Lopez-Bigas及其同事通过分析TCGA及其他数据库近7千个肿瘤的测序结果，鉴定出了475个癌症驱动基因。这其中，许多是新发现的驱动基因，这些发现很有意义，将有利于指导医生正确使用现有药物对癌症患者进行有针对性的治疗。

Lopez-Bigas等首先收集了TCGA以及其它项目的测序数据，结果发现，在鉴定出来的475个癌症驱动基因中，大约四分之一属于染色质调控（chromatin regulation）、泛素化降解（ubiquitin-mediated protein degradation）以及RNA的剪接（splicing and RNA processing）。目前，针对这些靶点的抗癌药物还比较罕见。其中，有一类包含76个驱动基因的亚群，被认为是“主要的癌症驱动基因”，由它们所导致的突变在癌症细胞中的发生频率非常高，意味着这些基因对于患者的生存具有重要影响。

研究者建立了癌症驱动基因数据库（The Cancer Drivers Database），这些驱动基因中占大多数的是基因突变，其它还包括基因的拷贝数变化以及基因融合，90%的肿瘤至少存在一个驱动基因。

为了实现精准医疗，他们开发出了一种新的、基于大数据的癌症诊疗方案，包括三个步骤（见图1）：

1. 鉴定和识别整个样本库中的驱动基因；
2. 收集整理所有已批准的和开发中的针对这些驱动基因的药物；
3. 收集患者个人的基因数据，有针对性地给药。

这一研究成果发表在了最近的《癌细胞》（Cancer Cell）杂志上。

从基因诊断到靶向治疗

确认驱动基因后，研究者进入了第二步，通过查阅相关资料，了解在前面识别出的驱动基因中，有哪些已经被作为药物靶点。结果发现，其中96种癌症驱动基因已经有了相应的治疗手段，包括已经批准的药物、处于临床研究阶段的药物和正在临床前开发的药物。在这些数据的基础上，研究者建立了癌症驱动基因可操作性数据库（Caner Drivers Actionability Database）。

通过过滤掉已经被验证无法应用于临床的数据，研究者确定了那些对于患者来说真正可以获得并且有效的药物。根据计算机模拟的结果，研究者发现，目前只有5.9%的患者可以进行肿瘤特异性、基因型靶向性的已批准药物的治疗。这其中，一半的患者具有ERBB2基因扩增性突变，针对这一驱动基因，有三种药已经被批准。

研究者接着考虑怎样将现有的药物改变用途，用以针对不同的驱动基因，他们还将这些改变用途根据可行性进行了分类。第一类改变用途包括改变被批准药物的适应症或者肿瘤类型；第二类是针对那些强的改变靶点的改变用途，改变的靶点包括在同一个蛋白质上的不同突变、不同的但是相连的基因和具有更强结合能力的变异蛋白等；第三类包括那些弱的改变靶点的改变用途，比如药物与不同靶点结合，但是结合能力弱于主要的结合靶点。

利用改变用途的方法，40.2%的患者可以得到一种获得FDA药物的治疗，其中一半是第一类的改变用途。大部分属于第一类改变用途的药物是激酶抑制剂，用来治疗甲状腺癌、恶性胶质瘤或者肺腺癌。另外33.1%的大约7千名患者可以使用正在临床开发中的药物。

大数据助力抗癌药物的筛选和开发

研究者对抗癌药物和它们的靶点进行了深入的研究，他们发现：只有19个驱动基因具有对应的靶点药物，另有61个驱动基因展现出可作为药物靶向的潜质。

这80个驱动基因在67.1%的统计患者中出现，其中63个驱动基因并没有被充分认识，其中的6个驱动基因在5.4%的患者中是主要的导致癌症的因素，这启示我们可以针对这些靶点开发新的药物。

总之，这一研究为癌症的精准医疗提供了新的机会，并且提供了操作性很强的数据库，对癌症基因的检测、抗癌药物的筛选以及癌症患者的靶向治疗都具有里程碑式的意义。

癌症以外的展望

我们除了癌症，还有很多其他的慢性疾病都没有得到满意的诊疗，目前的疾病分类还是基于病因、部位、病理及临床表现进行分类和诊断，未能实现通过基因分型进行精准诊断和治疗。它山之石，可以攻玉，癌症领域里的大数据应用，将有助于其他学科领域的借鉴，为更好地认识疾病、诊疗疾病和改善预后做出有意义的参考。

期待着人类认识疾病的进程，随着大数据时代的到来而插上腾飞的翅膀，更好地实现精准医疗。

(作者：梁星、贾玉华)

参考文献：Cancer Cell 2015;27:382-396

芯片上的精准医学： 大数据助力癌症研究

芯片上的精准医学：大数据助力癌症研究