精准健康：表观基因组学的挑战和建议

医学前沿

2018年07月号

卷首语

“痴呆”：失望的无治与可期的预防

医学进展

短视频

医学前沿

现代观点

医学与社会

十年经典

养殖业的抗生素之殇

精准健康：表观基因组学的挑战和建议

作者：钟芸

2017年3月，美国人寿保险公司GWG life开始要求保单持有人提交唾液样本。该公司并非对客户的遗传基因感兴趣，而是对以DNA甲基化形式存在的基因表观遗传状态感兴趣，并为此授权了一项表观基因组技术来预测个体的健康状况和寿命。这就提出了一个问题，即个人的表观基因组资料或多或少被用来收取保险费，或者干脆拒绝人寿保险。令人欣慰的是，表观遗传特征并非如石头般固定不变，你可以通过改变饮食、锻炼等来改善你的表观基因组。

自从2010年《时代》杂志的封面上刊登了表观遗传学后，在8年的时间里，新的表观遗传学技术的发展使人们对表观基因组在个体健康状态中的变化有了更好的理解。例如，研究人员已经证明，免疫系统的T细胞在衰老或功能衰竭时，在表观基因组水平会发生变化；某些癌症患者对药物治疗的反应可以从治疗过程中靶位点的DNA可接近性（accessibility）来预测；从DNA甲基化模式可以推断，一个人吸烟是否可能有罹患多种癌症的可能；受损组织释放到血液中的游离DNA的来源可以通过这些碎片的核糖体定位确定。因此，在未来的几年里，可以预期，表观遗传学的发现将越来越多地用于确定诊断、治疗，甚至左右保险。

表观基因组包含了广泛的与DNA相关的分子信号，从修饰到DNA本身，到核小体及其修饰，到染色质的折叠及DNA结合蛋白的调节区域的可接近性。表观基因组整合了遗传信息，如遗传序列变异，以及环境信息（通过信号级联和路径传播），从而影响细胞的功能结果。与基因组不同，表观基因组是高度动态的，阅读表观基因组可以揭示疾病、条件和组织相关的基因调控随时间的变化，而不涉及DNA序列水平的变化。无论这些表观基因组的改变是细胞状态变化的原因还是结果，它们作为诊断的生物标记物和/或作为治疗干预的目标都具有潜在的价值。

许多证据表明，表观基因组生物标记物与疾病驱动因素相关联，但它们尚未完全实现在更广泛的临床医学中的应用。在将表观基因组学应用于精准医疗之前，需要回答以下问题。如何知道测量是准确的？这些变化是短暂的还是真正的疾病生物标志物？如何比较群体研究和个人的结果？比较不同的新兴测量技术的最好方法是什么，以及我们如何确保这些新发现被最大限度地用于提高精准健康？

因此，美国斯坦福大学的Carter等人召集了一个由表观基因组技术的开发人员和最终用户组成的跨学科小组，为该领域提出优先事项。该小组成员来自哈佛医学院、麻省理工学院、丹娜法伯癌症研究院、麻省总医院、索尔克研究所、芝加哥大学等。

由于表观基因组修饰的动态性和组织特异性，需要在疾病进展、衰老或生活方式的干预过程中，纵向地从一个人的活检或血样中进行分析，以获得适当的解释。此外，表观基因组测量的通常是连续变量，但无正确的基准值或标准阈值表示某一特征是否存在。这些事实给化验和数据分析标准化和/或存储，以及长期的患者参与和反馈带来了挑战。对于那些寻求解决这些独特挑战的学术界和行业人士，Carter等人重点提出了以下5个建议，前3项建议涉及标准化，最后2项涉及临床应用。

首先，开发一种商用且价格合理的标准化染色质样本

Carter等人建议开发一种商用、可负担得起的标准化染色质DNA样本，以控制实验室之间的差异和随时间推移出现的差异。设想一下：某个国家的研究人员想要测试在其诊所里出现某些症状的儿童是否处于自身免疫性疾病的早期阶段。这些患者可能不会有健康的同卵双胞胎进行比较，因此这个研究者需要与其他健康的个体进行比较。为了发现与条件相关的基因调控机制，需对大量纵向样本进行比对，这要求对样本制备和分析进行标准化。这种类型的标准化还将加快监管机构批准此类发现的进程，使其成为常见的临床实践。虽然目前已经有了用于样本制备的书面方案，但Carter等人建议在所有表观遗传学实验中使用一个标准的样本作为基准，以确保检测质量、仪器性能和规范化。

第二，为表观遗传学检测创建一致的分析管道和数据存储库

需要有一个标准化的分析管道来控制表观基因组数据的质量。目前，在分析多家实验室发表的数据中，由于下游管道的差异，研究人员必须从原始测序读数开始，使得效率比较低下。此外，不同于基因组数据的碱基识别，表观基因组测量值是连续的，因此阈值是任意选择的。要自信地将生物学意义赋予表观基因组变化，研究人员必须能够整合来自多个采取相同分析方法的机构的大样本队列。这种标准化的分析将适用于序列分析的最上游步骤，特别是与质量控制相关的步骤。随着新技术的出现，以及多个机构将其应用于多种组织类型，与数据中的信噪比和偏差有关的质量指标必须以标准化的方式记录下来。这种类型的管道将仍然允许在各实验室中进行新的下游分析，同时提高重现性和跨研究的比较。

第三，编目和登记调控元件，建立标准化的索引

随着对基因组结构和功能的认识不断增加，迫切需要一种方法来命名和编目基因组中的调控元件。与基因不同的是，调控元件目前没有标准化的索引，这使得研究之间的交叉引用都是手工且费力的。一个基因（或者更准确地说是一个转录本）不仅可以通过它的序列、链、结构和参考基因组中的坐标来识别，而且还可以通过一个标准化的唯一标识符（它的基因名）来识别。在基因水平上，由于多个数据库具有不同的转录本名和标识符，常常会出现混淆。这一问题在调控领域急剧扩大。调控元件估计约占人类基因组的10%～20%，目前还没有被普遍接受的标识符。

建立一套调控元件的“字典”是构建一个将给定的调控区域与表型或疾病联系起来的证据的重要基础。例如，在健康和患病的双胞胎之间，基因座（位点）的可接近性或甲基化发生了变化。如果没有一个共同的命名系统，之后的研究人员可能无法及时识别出某些既往已被确认与一些疾病有关的位点。

第四，开发分析方法，利用血液、皮肤、唾液和尿液推断表观基因组信息

与基因组测序不同的是，基因组测序通常只需要在一个时间点从组织中取一个样本，而表观基因组分析则需要在一段时间内从感兴趣的组织中提取多个样本。这需要两个方面的进展：首先，生物标志物分析的发展使我们可以从易获取的组织（血液、皮肤、唾液或尿液）中推断出难以获取的组织（如大脑）中的表观基因组状态；第二，长期参与的入组患者的表观遗传学研究。

为了使对健康参与者的纵向研究可行，以及为了使表观遗传学发挥其全部潜力，非侵入性采样方法必须足以从所有组织获取表观遗传学信息。最终的目标是能够通过可快速、反复收集的替代组织来源，推断出前脑或胰腺肿瘤中一个表观基因组特征的细胞类型特异性状态。这对于健康人群的测量尤其重要，因为在正常情况下，健康人群不需要去医院接受活检。在产前诊断和癌症中，这类替代组织的检测已在DNA序列水平上被证明是有用的。在病例中，血液中发现的DNA被称为游离DNA（cell-free DNA，cfDNA），可以通过突变特征或性染色体和遗传多态性，分别进行测序，确定其肿瘤或胎儿来源。癌症研究表明，一个已知的肿瘤患者，其有特异性突变特征的循环游离DNA的数量与肿瘤的大小相关，这是因为肿瘤细胞死亡后将DNA释放到了血液中。

第五，通过增强对患者的数据共享，改善参与者的长期参与

生物医学研究中最大的挑战之一是培养一个庞大而多样化的患者群体，以便长期参与纵向研究。这对于在表观遗传学测量中捕获随时间的动态变化特别重要。如此大规模的纵向研究需要患者参与度的提高。这一领域面临挑战的一个原因是，患者很少被告知研究结果。提高患者参与度的一种方法是更多地给参与者反馈研究结果。Carter等人还鼓励使用在线数据交换进行实验。这样的在线交换可以让个人提交他们自己的数据给多个正在进行的研究，以便从一次贡献中获得更多关于他们健康的信息。这也可能促进研究人员之间的数据共享，患者则通过充当自己的经纪人来控制数据的使用。

个性化的表观基因组测量对临床医学甚至生活方式都具有巨大的转化潜力。表观基因组有能力揭示为什么两个同卵双胞胎在疾病上表现不同，他们可能会对哪些药物做出反应，以及环境因素对疾病进展的影响。但是表观基因组随时间和健康状况变化的复杂性和动态性给标准化、数据分析和共享、样本获取和患者参与都带来了无与伦比的困难。

（作者：钟芸)

参考文献：Nature Biotechnology 2017; 35:1128-1132

精准健康： 表观基因组学的挑战和建议

精准健康：表观基因组学的挑战和建议