医学前沿
2022年06月号

更完整的人类基因组序列诞生

作者:生命新知

综合最先进的技术,研究人员现在能够生成第一个完整的人类基因组序列。

端粒到端粒(telomere-to-telomere, T2T)联盟在人类基因组学方面迈出了巨大的一步。该小组在《科学》杂志上发表文章,描述了第一个基本完整的人类基因组序列,称为T2T-CHM13。T2T-CHM13的诞生具有里程碑意义,包含了之前未在参考序列中表示的基因组区域,为现有人类参考基因组提供了一个替代序列。除了能够构建它的复杂方法外,它也为产生多种多样的人类基因组开辟了道路。

人类基因组计划于1990年启动,目标是获得大部分人类基因组的高度精确序列。2001年发表了第一份草图,3年后完成了基因组序列。这一参考序列是来自6个国家20个机构的科学家取得的重大成就,估计花费超过20亿美元。它促成了过去二十年中一些最重要的生物学发现。尽管如此,由于技术限制,基因组的某些区域尚未解决。

对现有人类参考基因组进行测序的策略是基于克隆的方法,在这种方法中,单个基因组区域(克隆)在每个染色体上进行排序和定向,然后进行测序。每个克隆都是由一位经验丰富的科学家“完成”的,他手动修复了任何序列错误组装,并进行了事后测序反应以填补空白。将完成的克隆拼接在一起,构建最终的基因组组装。但是,在基因组的重复区域并不总是能够准确地放置克隆,导致这些区域周围的区域出现了一些较大的间隙(图1),包括染色体中心着丝粒的周围和靠近染色体末端的亚端粒区域。

原先的人类基因组是由几个个体的DNA构建而成,从而形成了马赛克基因组,这一事实进一步加剧了这些局限性。基因组参考联盟(Genome Reference Consortium, GRC)在过去二十年中不断改进已完成基因组中的基因模型和测序缺口,2013年的“GRCh38”组装及其2019年更新(GRCh.38.p13)形成了大多数现代基因组分析的比较来源。

T2T联盟采取了一种不同的方法,称为鸟枪法测序,将基因组随机分成数百万个片段进行测序,计算机算法发现序列之间的重叠,将片段构建成染色体。在过去,通过鸟枪法测序生成的基因组往往是不完整的,但随着技术进步——包括从序列片段生成长而准确序列的能力——促进了无间隙染色体组装,即使在基因组的困难重复区域也是如此。

尽管自2003年以来完成的所有基因组的构建方法存在重大差异,但大的染色体臂上的基因排序基本相同。例外情况是GRCh38和T2T-CHM13之间的序列小反转。这些发生在1号染色体上,长度为190万碱基(1.9 Mb)、8号染色体(0.84 Mb)和16号染色体(3.8 Mb),可能是由测序构建GRCh38和T2T-CHM13的基因组之间的分子变异引起的。

相比之下,T2T-CHM13中基因组的高度重复区域与之前的组合相比有了很大的改善,尤其是在9号染色体和近端着丝粒染色体上。在这些情况下,T2T-CHM13中的重复序列在很大程度上填补了之前的空白。这些非蛋白质编码序列曾被认为是“垃圾”,但现在已知是各种特征和疾病的基础。T2T-CHM13的端粒重复数比GRCh.38.p13多3.6%,串联重复序列多254%。这些序列通常填补了GRCh38中的空白(图1)。

T2T-CHM13中重复序列的完整表达将有助于遗传疾病的诊断和潜在治疗。该序列最终将取代GRCh38作为用于分析的参考序列,但基因组医学计划必须首先通过部署患者重复序列测序所需的先进技术进行调整。这一过程需要新的分析和临床方法。此外,必须改进产生长序列的准确策略,因为它们的产生比短读序列的标准速度慢得多,通量也低得多。

尽管T2T-CHM13取得了成功,但可用的人类参考序列并不能捕获人类群体中序列的多样性。正是这种分子多样性奠定了遗传疾病、遗传特征和疾病易感性的基础。不相关人群之间的遗传差异意味着某些基因组与T2T-CHM13的可比性不如其他基因组。展望未来,下一步必须是从无关个体中收集参考基因组——目前正通过泛基因组框架解决这一挑战。

参考文献:Lovell JT, Grimwood J. The road to accurate and complete human genomes[J]. Nature,2022,606:468-469.

Copyright 1994-2015 Cinkate.com.cn All Rights Reserved 沪ICP备10014127号-5