医学前沿
2022年02月号

基因变异与健康

作者:生命新知

利用人类基因型-表型关联来指导和加速药物研发工作是一个有趣的话题。

为了将基因变异与人类健康关联起来,我们需要从尽可能多的人身上收集基因数据和与健康相关的信息,并且尽可能详细。这种关联检测的原则是长期存在的,人类基因组学领域在过去几十年中在规模和质量上都有所扩大。美国再生元遗传学中心的Backman等报告了一个新的里程碑。研究人员从英国生物银行(UK Biobank)收集的45万多人的健康和基因数据中,分析了他们的基因组蛋白质编码部分(称为外显子组),确定了1 230万个 导致编码蛋白质改变的变体,称为编码变体。然后,作者检查了这些变异与3 994个健康相关特征(健康表型)的关联,发现了8 865个关联(图1)。

对英国生物银行数据的初步分析包括遗传信息,这些信息仅限于已知在相对较大比例的个体(例如,超过1%的受试群体)中出现的常见变异。然而,这些变异可能只是人类外显子组总变异的冰山一角。全外显子组测序(whole-exome sequencing, WES)技术的使用是获得外显子组变异详细信息的关键。

2016年,外显子组聚合联盟(Exome Aggregation Consortium, ExAC)展示了一组超过60 000人的WES聚合数据,该数据后来扩展到包括140 000多个个体的外显子组和基因组数据。这些研究系统地量化了人类基因变异的生物学影响。然而,这种影响与特定表型无关,因为数据集缺乏详细的临床信息,突出英国生物银行健康记录的价值。

之前的分析也将外显子组(甚至全基因组)数据与详细的表型数据结合起来。例如,DiscovEHR协作对约50 000个外显子进行了测序,精准医学跨组学项目(Trans-Omics for Precision Medicine Program)对近54 000个外显子进行了测序,此前使用英国生物银行数据进行的研究分别分析了近50 000个外显子和超过280 000个外显子。然而,之前这些分析的结果一致表明,进一步扩大样本量是有价值的。事实上,Backman及其同事证明,通过将样本量增加不到10倍,基因-表型关联识别大约可以增加20倍(从26到564)。

Backman及其同事分析确定的1 230万个编码变体,与之前WES分析确定的编码变体总和相比增加了30%。这些变体(1230万)几乎都是罕见变异,其中大约一半的变异发生在一个人身上(称为单例变异),突出了在如此大规模下WES的价值。

描述已识别的变异对编码蛋白质的生物学效应及其功能,有助于研究人员优先考虑可能与临床相关的变异和基因。例如,假定功能丧失(putative loss-of-function, pLOF)变体是那些预期会破坏正常编码蛋白质的生物功能的变体。Bankman等发现了90多万个pLOF变体,相当于每个个体有200多个pLOF变体,每个基因约有50个pLOF变体。错义变异导致编码蛋白质中氨基酸残基序列的变化,这可能会影响蛋白质的生化和生物学特性。作者确定了近790万个 错义变体,平均每个基因对应600多个变体。此外,23%的错义变体高度怀疑(高置信度)对携带个体有有害影响。

值得注意的是,作者构建了一个全面的基因型-表型目录,列出了已识别的有害变体与3 994种健康表型之间的关联,包括3 706种“二元”(binary)健康表型,例如存在(或不存在)特定类型癌症。健康数据集涵盖了广泛的表型,包括疾病、身体的尺寸和比例,以及健康和疾病的分子标记物水平。作者发现了8 865个具有统计学意义的关联(涉及564个基因和492个特征)。

利用人类基因型-表型关联来指导和加速药物研发工作是一个有趣的话题。作者发现,编码美国批准的药物靶向的蛋白质的基因与健康相关表型的关联比其他基因多3.6倍,增强了基于基因组的药物研发的潜力。作者特别强调了与降低疾病风险相关的pLOF变体;例如,SLC27A3基因的pLOF变体与儿童哮喘风险降低有关。这种关联为可能的治疗策略提供信息——例如,通过激发抑制此类基因蛋白质产物的化合物的设计。

在单一框架内解释充分研究的常见变异和研究不足的罕见变异的影响往往是一个挑战。Backman及其同事证明,即使考虑到常见变异的影响,罕见变异与健康表型之间的关联在统计学上仍然显著。这一观察结果为解释基因变异的综合效应铺平了道路,这些变异在人群中以频率谱的形式出现,从常见到极为罕见,包括单体变异。此外,通过检测基因组中与同一健康特征相关的罕见(编码)和常见(潜在非编码)变异对,Backman及其同事认为,与特定表型相关的(非编码)基因组变体最接近的基因,极有可能是影响该表型的基因。

下一个里程碑会是什么?首先是样本的持续积累。正如作者所展示的,即使在超大规模WES研究中,他们的数据仍然没有足够的统计能力来发现大多数罕见的保护性变体。第二个策略是更深入地研究人类表型,例如通过评估长时间的临床记录,查看行为和社会经济数据,以及基因表达、蛋白质和代谢物的水平。第三是从WES转向全基因组测序,正如作者计划在不久的将来所做的那样。与某些表型相关的罕见非编码变异可能正在等待我们,就像是另一块冰山。最后,不同人群的参与至关重要。尽管英国生物银行与Backman及其同事的分析中包括了非欧洲血统样本,但比例仍然相对较小。更大的祖先多样性,使用多种群、多生物库,不仅是最大限度地发现变异的必要条件,也是实现人类遗传学公平的必要条件。

重要的是,Backman及其同事正在公开WES资源。尽管我们生活在一个数据量可能超过分析能力的时代,但整个科学界已经准备好综合利用统计、计算和生物学知识来处理海量数据集。

参考文献:Yukinori Okada & Qingbo S.Wang. From genes to health[J]. Nature,2021,599: 561-562.

Copyright 1994-2015 Cinkate.com.cn All Rights Reserved 沪ICP备10014127号-5