医学前沿
2021年02月号

向完整的人类基因组趋近

作者:生命新知

测序技术的进步意味着科学家们即将最终完成“端粒到端粒”(简称:端到端)的人类基因组图谱。

由于基因和调控序列的复杂多样性,人类基因组常常被比作地形复杂的风景。但在其中很多“地方”,并没有那么复杂多样,而是像沙漠一样广阔而重复。

以染色体的着丝粒为例,它连接着两条携带基因的臂。着丝粒由数千个几乎相同的α-卫星序列组成——171个碱基对需要正确被组织起来,以确保染色体的稳定性和细胞分裂。然而,在人类基因组草图发表20年后,这些和其他具有挑战性的DNA特征仍然是我们染色体图谱中的顽固缺口。而且,直到几年前,一些研究人员还对填补它们感到绝望。

美国杜克大学(Duke University)的着丝粒研究员贝丝•沙利文(Beth Sullivan)回忆起2014年与加州大学圣克鲁兹分校(University of California, Santa Cruz)基因组学研究员凯伦•米加(Karen Miga)的一次对话。沙利文说:“她告诉我,如果这项技术不发生翻天覆地的变化,我们就会在这里呆很长一段时间。”

但有些事情确实发生了:测序技术的发展可以不间断地读取长段DNA。现在,米加和她的端粒到端粒(Telomere to Telomere, T2T)联盟的同事们正准备完成从第一个序列草图发布开始的20年征程。他们的目标是为每条染色体绘制一张从一个端粒延伸到另一个端粒的“端到端”基因组图谱。“这不仅仅是为了做而做。”米加说,“这是因为我认为其中的生物学非常酷。”但要想找到它,基因组学领域就需要对许多这样的基因组进行测序,弄清楚那些我们仍不太了解的基因组区域。

卡在中间

20年前,发表的人类基因组第一份草图是一项里程碑式的成就,但它也充满了漏洞。人类基因组计划的科学家们从染色体DNA中获取了大量的短序列。在它们彼此相邻重叠的地方,被拼装成更长的、相连的序列,称为重叠群(contigs)。理想情况下,每条染色体都应该由一个单一的contig来表示,但第一份草图由1 246个这样的片段组成。

从那以后,作为基因组参考联盟(Genome Reference Consortium,GRC)的科学家们一直在完善这个组合,手工检查它,并使用测序分析来识别有错误和信息缺口的片段。人类基因组的最新版本GRCh38于2013年发布。从那时起,它就不断被“修补”。然而,它仍然缺少5%至10%的基因组,包括所有的着丝粒和其他具有挑战性的区域,如大量编码核糖体RNA序列的基因。它们存在于大量重复的基因拷贝中。美国国家人类基因组研究所(US National Human Genome Research Institute)的生物信息学家、T2T联合主席亚当•菲利普(Adam Phillippy)说:“这是有待弥合的差距中的很大一部分。”基因组中还充斥着难以绘制的几乎相同的DNA片段,即所谓的片段重复——染色体重排的产物。

这些具有挑战性的部分阻碍着基因组组装的努力。这是因为迄今为止大多数测序都是用短读序列技术完成的,比如被广泛使用的生物技术公司Illumina推出的商业化平台。Illumina测序仪生成的数据非常精确,但通常只有几百个碱基——太短了,无法跨越很长的重复序列,也无法明确定位序列。“基因通常很容易组装。”英国威康桑格研究所的计算生物学家、GRC成员Kerstin Howe说,“但在基因间空间的东西、以及很多重复序列基本上都是无法定位的。”

跨越鸿沟

两项长读序列技术正在缩小这些差距。位于加州的太平洋生物科学公司,使用一种成像系统直接并行读取数十万甚至数百万条DNA链,每条链跨越数千个碱基。另一种由英国牛津纳米孔科技公司(Oxford Nanopore Technologies)商业化的方法是让DNA链穿过微小的蛋白质孔,即纳米孔,通过测量核苷酸穿过通道时产生电流的细微变化来读取数万至数十万个碱基。

当太平洋生物科学公司的技术于2010年,牛津纳米孔科技的技术于2014年首次推出时,这些技术比Illumina更容易出错,后者对单个碱基读取的准确率超过99%。“太平洋生物早期的误差率是15%至20%。”菲利普说。第一代纳米孔测序仪有超过30%的碱基错误。

但性能稳步提高,读取长度也随之提高。“在过去的三到四年里,我们现在可以获得超过10万碱基的长度。”菲利普说,“就在那时,凯伦和我发起了这个T2T研究项目。”

该联盟成立于2019年初,目标是为每个人类染色体确定高质量的端到端序列。来自世界各地的100多名测序和基因组学专家已经签署了协议,其中许多人已经展示了基于长读序列分析的力量。

2018年发表的两篇论文突出了他们的工作。在其中一项研究中,英国诺丁汉大学的计算生物学家马修•洛斯(Matthew Loose)和他的同事描述了第一个完全由牛津纳米孔数据组装而成的人类基因组。以前的长读组件使用Illumina数据来纠正容易出错的纳米孔输出。但是,洛斯和他的同事仅使用纳米孔数据就覆盖了大约90%的GRCh38,准确率为99.8%,同时也填补了参考基因组中的十几个主要缺口。

在第二项研究中,米加和她的团队重新组装了人类基因组中最小的Y染色体的着丝粒。他们在该区域测序了大量的长序列,以产生高质量的一致序列,其中随机错误可以很容易地被识别和消除。

首次完成

这些实验的成功表明,T2T的目标是可以实现的。为了简化工作,该联盟专注于CHM13,这是一种来自肿瘤的细胞系,其基因组包含两套相同的染色体。这消除了二倍体基因组的复杂性,即来自双亲的不同染色体拷贝。

2020年末,T2T科学家发表了X和8号染色体的完整序列。研究人员使用牛津纳米孔技术对两条染色体进行测序,这两条染色体的长度通常超过7万个碱基,其中一条染色体的长度超过100万个碱基。“有了这些,从端粒到端粒,我们基本上能够得到这些染色体的主干,但准确性较低。”菲利普说。然后,他们用Illumina和太平洋生物的读取数据来补充这些数据,以完善基因组件。

美国华盛顿大学基因组科学家艾文•艾希勒(Evan Eichler)实验室的博士后格伦尼斯•洛格斯顿(Glennis Logsdon)是8号染色体文章的第一作者。他说,不同的测序技术有各自的特点。例如,T2T科学家发现,太平洋生物的技术很难测序富含G、A碱基的基因组区域,而纳米孔技术有时会在同一核苷酸的长重复序列上遇到问题。“如果一个数据集有另一个数据集没有的缺陷,它们恰恰会因此而很好地互补。”洛格斯顿说。

完成和核实这些组件需要专门的软件工具,菲利普和加州大学圣地亚哥分校的计算生物学家帕维•帕夫纳(Pavel Pevzner)对此进行了开发。该团队采取了谨慎的方法。“只有在7 000个碱基长度范围内,两个序列基本上100%相同的情况下,我们才会把它们粘在一起。”菲利普说,“一旦将错误引入程序集,就很难修复它。”但他说,通过采取这些措施,就有可能在核苷酸水平上生产出准确度为99.99%的组装体。

对X染色体的初步研究得益于先前对该染色体着丝粒的了解,这在结构层面已经得到了充分的研究。“我们使用了多种分子技术,以确保从测序信息中得到的α-卫星阵列的组合是正确的。”沙利文说。

研究人员还利用了绘图技术,比如生物技术公司Bionano Genomics开发的一种绘图技术,这种技术使测量染色体上DNA序列之间的距离成为可能。

接近完成

虽然取得了成功,但对8号染色体和X染色体采取的T2T方法极为费力和艰苦。但在这段时间里,一个重要的进展给该团队打了一剂强心针。太平洋生物的设备支持一种被称为环状一致测序(circular consensus sequencing, CCS)的策略,在这个过程中,个体的DNA链被转换成可以反复读取的闭合循环。通过比较这些重复的读数,研究人员可以消除随机错误,产生高度准确的结果。

早期版本的CCS最多只有几千个碱基,限制了它们在基因组测序中的使用。但在2019年,该公司对这一过程进行了改进,由此造就的高保真方法现在能对超过2万个碱基的进行读取,准确率超过99%。“我们现在可以高保真地读取一些着丝粒,而不需要额外的帮助”,帕夫纳说。同时他也补充说,还需要精确校准的算法来处理这些数据。

帕夫纳将着丝粒序列组装比作拼装一幅看起来很清晰的蓝天拼图,所有的碎片最初看起来都无法区分。他说:“有一些几乎看不见的云,可以区分出这个拼图的不同部分。”发现这些云可以揭示这一谜题的组织结构——改进后的方法可以敏感地检测细微的序列差异,为装配算法提供标志。

这种方法与纳米孔技术的结合显著加速了T2T的进展——洛格斯顿报告说,现在含10万个碱基的序列测序已经成为常规。“我们花了一年或更多的时间来完成X染色体和8号染色体项目。”菲利普说,“但现在我们基本上能够在两个月的时间内完成所有剩余的染色体。”现在结束在望。“除了9号染色体上的着丝粒,我们已经对所有的着丝粒阵列都开了绿灯。”米加说。着丝粒跨越2 700万个碱基,无疑是巨大的工作量,而且在验证方面也存在挑战。研究小组还在最后确定核糖体RNA基因。但该联盟已经在GitHub上分享了其数据,米加预计CHM13细胞系的完整基因组将于今年发布。

这些数据已经产生了深刻的见解。洛格斯顿和其他人一直在使用纳米孔测序来寻找可以影响染色体功能的DNA化学修饰模式。“大多数着丝粒是甲基化的,但是甲基化下降似乎存在于所有着丝粒中。”她说。这种下降似乎标志着着丝粒的位置,这是一种在细胞分裂过程中管理DNA平均分配的重要着丝粒结构。洛格斯顿希望利用这些发现来设计合成染色体的最小着丝粒。

T2T方法也使编码抗体及免疫T细胞表面受体的大量复杂基因阵列可以在相对短的时间内完成测序。“它们的重复性很高,组装起来非常困难。”帕夫纳说,“到今天为止,我们对这样的区域只有两个参考。”获取和描述这些基因组片段,就可以进一步探索感染和疫苗引发的免疫反应。

结语

在没有其他不同个体的基因组可供比较的情况下,单一的端到端基因组仅能为研究人员提供有限的价值。为了提高其效用,在2020年底,T2T开始与另一个并行的组织——人类泛基因组参考联盟(Human Pangenome Reference Consortium, HPRC)更密切地合作。HPRC于2019年启动,目标是根据至少350个个体的全基因组数据,用更好地捕捉人类多样性的参考基因组取代GRCh38。德国马克斯普朗克信息学研究所(Max Planck Institute for Informatics)的计算生物学家托比亚斯•马沙尔(Tobias Marschall)参与了这项研究,他说:“基因组医学变得越常规,一个人就越想消除祖先基因带来的不利因素。”

铃木祐太(Yuta Suzuki)是东京大学计算生物学家森下信一(Shinichi Morishita)实验室的助理研究员,他利用太平洋生物的测序技术对来自日本和世界其他地方的36个个体的着丝粒进行了研究。“在日本人群中,我们几乎在每个研究样本中都发现了不同的着丝粒”,铃木说。森下计划分析另外数百个人的着丝粒,他指出,几十个与疾病相关的基因变异已经被绘制在这些区域。他说,“这表明着丝点重复序列中有些地方出了问题,它们的稳定性可能由于结构变异而被破坏。”在他看来,一旦核糖体RNA基因被阐明,就有机会更好地了解与细胞蛋白质产生机制相关的疾病。

但首先,研究人员必须弄清楚如何将T2T过程应用于二倍体基因组。要确定哪个序列位于哪个染色体拷贝上,科学家需要识别足够的独特遗传标记,以便为每条DNA链组装不同的contigs,这在超重复区域(如着丝粒)是一项艰巨的任务。森下说,“对于二倍体基因组,我们需要更精确、更长时间的读取来跨越整个着丝粒区域。”

目前,大多数临床基因组学的工作集中在已知的基因。但是探索新领域的先驱们预计,当开始常规地探索那些曾经无法绘制地图区域序列的临床影响时,综合分析最终将成为标准,尽管可能更昂贵。米加说:“如果我的孩子生病了,而我知道能得到100%的基因组,那我愿意为此支付差额。”

参考文献:Michael Eisenstein. Closing in on a Complete Human Genome[J]. Nature,2021,590:679-681.

Copyright 1994-2015 Cinkate.com.cn All Rights Reserved 沪ICP备10014127号-5