14年前第一份人类基因组草图问世。如今,科学家们计划绘制一张史无前例的图谱,涵盖不同细胞和组织DNA的表观基因组特征。美国国立卫生研究院(National Institutes of Health,NIH)10年表观基因组项目(10-year Roadmap Epigenomics Project)中成百上千的科学家已在《自然》及其姊妹杂志上发表了21篇技术含量高的原创论文,有助于理解含有相同基因组的不同类型细胞的功能多样性和基因表达差异。这些工作只是漫漫征途的开始,但对药物开发者启发良多。
“这是一门极为重要的科学。过几年再看这些文章,仍然具有开创性。”杨森公司免疫治疗领域系统药理学和标志物的副总裁Mark Curran说。虽然数据要在实验室验证,还要填补未知的基因组区域,但他认为这个项目为疾病、药物靶点、生物标记物和动物模型都提供了新思路。杨森及其母公司强生公司是极少数几个研究表观基因组数据应用的公司。除了自身努力外,强生公司还投资了罗丹疗法(Rodin Therapeutics),一种开发治疗阿尔茨海默病(Alzheimer Disease,AD)的组蛋白乙酰化酶(histone deacetylase,HDAC)抑制剂的生物技术;杨森公司也一起支持克罗恩病和溃疡性结肠炎的表观基因组的学术研究。其他医药公司也都卯足了劲想拼一把。
在研究中不缺数据,表观基因组数据会像洪水一样涌来。NIH的表观基因组项目对111个不同的原始细胞和组织类型测序,而国际人类表观基因组联盟(Human Epigenome Consortium,IHEC)正在对1000个原始细胞和组织的表观基因组进行测序。IHEC的另一个成员欧盟Roadmap项目计划明年发表另外100个相关的表观基因组数据。
“Roadmap带给我们的远比想象的多。”伦敦大学遗传学家stephan Beck说,“如果每个成员都以相同的方式上传自己的数据,那么整个项目就会朝IHEC期望的方向发展。”
这事儿当然也遭到负面批评。2008年就有研究小组在《科学》上放言,仅仅对修饰方式编写目录提供的有用信息极少。其他批评者也认为,目前还没有很好的模型来反映染色体修饰DNA甲基化调控基因表达。还有科学辩论争论到底有多少非编码DNA和相关表观基因组标志物有功能,多少完全无用。更有甚者直言不讳——像Roadmap这样的大项目已经用了不少其他基础研究的资金。
质疑者的顾虑并没有因为新数据有用而减少。Curran说:“对早期科学的任何批评最后都可能是对的。不对Roadmap盲目乐观,或许其他研究还有一定的生存空间。”他也指出,与人类基因组计划类似,反对者认为花钱太多。
目的地:疾病生物学
2012年,研究者与DNA元件百科全书(Encyclopedia of DNA Elements,ENCODE)计划为Roadmap定了基调,在不同细胞类型中大范围寻找区分不同功能DNA元件的转录区、染色质结构、组蛋白修饰和DNA甲基化。ENCODE主要关注转化细胞系,而Roadmap则阐释人类原始细胞和组织的表观基因组。
Roadmap的研究者描绘了非常多的表观基因组,让我们深刻理解与一些常见病息息相关的组织和细胞。研究发现,基因差异使个体易患某种疾病,秘密就在特定组织中激活的基因调节区。美国马萨诸塞州理工学院的一名计算机生物学家Manolis Kellis说,这种预测疾病变异发生部位的方法可指导选择认识不同疾病的重要组织。例如,可以预见,与血压变化相关的基因变异会影响大脑调节血压,或者在肝脏中影响咖啡因等物质的新陈代谢。不同的是,Roadmap的数据则说明这些变异在左心室起效。他说,我们现在第一次能看着五花八门的疾病,从分子水平公正判断与疾病最有关系的组织。
另外一个例子是,与阿尔茨海默症(AD)相关的变异基因集中在免疫细胞的活化调节区,提示易患AD可能是由于免疫细胞调节异常。在病情进展时,炎症常被视为神经退行性变的结果。但是现在看来,免疫基因激活可能才是真正的始作俑者。和脑细胞相比,药物更容易进入血细胞,AD的治疗无疑有了新的门路。
研究人员还深入分析了免疫疾病特异的细胞类型。结果表明,多发性硬化症(multiple sclerosis,MS)的基因根源不在神经而在免疫系统。MS到底是神经系统疾病还是自身免疫性疾病的争辩由来已久,该研究为最终论断提供了强有力的证据。
Roadmap也会帮助研究者识别出已经在全基因组相关研究(genome-wide association studies,GWASs)中被标记的与特定疾病相关的变异基因。近几年,遗传学家已经从GWASs中获得了重要信息,例如发现了精神分裂症相关基因。但是,通过GWASs发现的大约93%的变异基因存在于基因组的非编码区。研究者正在对这些变异进行深入研究。庞大的表观基因组数据为我们提供了支持,帮助我们发现非编码区的功能以及潜在的药物靶点。
下一个挑战是要识别增强子控制的基因。很多增强子并不调节临近基因。基因的非编码区变异也典型地说明,只有一小部分基因与疾病易感性有关,所以生物学还是很复杂的。
这些研究也启发了疾病相关的细胞分化的研究思路。免疫学家很早就知道,不同免疫细胞间的平衡被打破能够推动病情进展,如CD4阳性T细胞和其他调节T细胞之间的平衡。有了这些新数据,研究者一定能发现导致失衡的原因。理解了基因变异的微妙影响,研究者或许能够研发出控制酶活性的药物。
表观遗传学数据也可用于药理学网络项目。把它们整合到已有的蛋白质数据中,就能开发出更好的生物模型。这些数据还提示,药物开发者需要将注意力集中在更加特异的组织或细胞中。肿瘤学家目前已经开发出抗体-药物偶合物,能让细胞毒性药物特异地到达肿瘤细胞。
其他应用
Roadmap 或许还可以提供特定的表观遗传学标记物。Kellis及其同事曾分析了708例脑死亡来寻找AD的表观遗传学特征。最终他们发现,有11个DNA甲基化标记物与AD相关。这些标记物甚至在发病前就已存在,可能是疾病发生的早期特征,而不是结果。
他们目前正在寻找血液中的表观遗传学标记物,看是否能用来预测大脑的表观特征并最终服务临床。如果真的如此,人们就能选择最有效的疗法。
表观遗传学标记物还需要大样本验证。超过15万篇文献报道了新的疾病标记物,然而临床上用的也就100个。这在一定程度上都是因为研究样本量太小,结论没有说服力。
Roadmap数据能够帮助研究者更好地利用动物模型。所有的模型动物都有缺陷,用好模型的关键在于明白它们最能反映人体生物学的时间和方式。看到AD表观遗传标记物在人和CK-p25小鼠中都是保守的,Kellis和同事建议CK-p25小鼠是研究AD表观遗传学变异的好模型。通过分析其它疾病模型动物的表观遗传学,研究者或许能找到尺度,知道什么病用什么模型动物好。
(作者:贺利军、刘荣军)
参考文献:Nature Reviews 2015;14:223-225