高通量测序仪能够评估外显子组或整个基因组,并且可以在每个测序个体中识别数百万个基因变异。从有限的靶向测序到基因组测序的转变需要自动化算法来解析原始数据,识别真正的变异和由系统错误引起的变异。
临床医生越来越多地使用临床测序检测,来确诊可能患有遗传疾病的患者,这意味着测序和解释的准确性是确保基因检测益处的重要因素。过去,临床测序检测被用于检测个体基因组有限区域内的预先指定的或未知的变体。然后手动检查每个检测到的变异的原始数据,检查测序中的错误及其潜在的临床重要性。新技术能够评估外显子组或整个基因组,并且可以在每个测序个体中识别数百万个基因变异。从有限的靶向测序到基因组测序的转变需要自动化算法来解析原始数据,识别真正的变异和由系统错误引起的变异。错误可能来自不正确的读取特定DNA分子区域的碱基,以及错误地将短序列映射到人类参考基因组。测序和分析方面的新进展以及标准质量措施,对于确保医疗用途的测序结果的准确性至关重要。
如何工作
高通量测序(high-throughput sequencing, HTS)仪输出的不是被分析个体的完整线性基因组序列。HTS产生数十亿个称为reads的短序列。每个read包含一百到几十万个碱基对,而完整的人类基因组序列大约有32亿个碱基对。映射用于将短序列与已知人类基因组参考序列对齐。将新映射的个体序列和参考序列进行比较以发现差异,这些差异称为“变异”。这些变异可能非常小,如单核苷酸变异(single nucleotide variants, SNVs),或者是染色体大小的结构变异。
识别变异的准确性因变异类型、基因组序列的重复程度以及测序技术而异。通过最常用的短读HTS技术可以访问多达80%~90%的基因组,该技术读取100个碱基对的序列,每个碱基的错误率约为0.1%。然而,10%~20%的基因组含有大量的重复结构,导致很难或不能精确地绘制短序列。类似地,许多结构变异出现在重复序列中,或引入比短读序列长得多的新序列,因此这些变异很难通过短读检测到。新技术可以对单个分子进行测序,从而实现一万到数十万个碱基对的连续测序。目前,读取更长序列的技术对于每个序列碱基对来说成本更高,并且原始读取在序列中每5~20个碱基对就有一个错误,但是新方法可以多次读取相同的10 000个碱基对分子,每100个碱基对产生的错误少于1个。对于HTS,基因组中的每个位置都被测序了很多次(通常是几十到几千次),这取决于样本类型(肿瘤通常比非肿瘤组织需要更多的重复)。这被称为读取深度,通常表示为N×,[N表示DNA分子中每个核苷酸位置的平均测序次数;(例如,10×表示每个位置平均测序10次)]。统计模型和启发式方法使用给定位置的所有重复序列来区分真实变异和错误变异,包括特定DNA序列中的系统错误以及这些序列与参考序列的不对齐(图1)。最近,深度学习技术通过利用非常大的数据量来最大限度地减少变异检测中的错误,从而能够更快地采用具有复杂错误处理的新技术。
分析效度(analytic validity)是指测序仪与自动算法相结合,能够准确可靠地检测遗传变异的程度。也就是说,当对基因组进行测序和分析时,是否遗漏了一些真变异或错误报告了一些假变异?高度的分析效度对于做出准确的诊断至关重要。尽管HTS的分析效度在过去几年中稳步提高,但它仍然不完善,在将基因测序用于诊断目的时可能产生错误。为了制定分析效度的标准,美国国家标准与技术研究所成立了瓶中基因组联盟(Genome in a Bottle Consortium, GIAB)。GIAB整合了来自同一基因组上许多技术的测序数据,以提供高置信度序列,可作为任何测序方法的基准的参考标准。全球基因组学和健康基准联盟团队开发了复杂的、标准化的基准检测工具,使得在实验室中能够使用参考标准对不同类型的变异、重复和非重复区域的建立分析效度。
临床诊断注意事项
由于HTS方法在检测基因组非重复区域中的小变异时通常具有高度的准确性,因此提出了一种系统方法从不太可能出错的变异中分离较难的变异(需要通过另一种方法确认的变异)。然而,使用标准的下一代测序方法检测较大的变异和重复区域的变异可能具有挑战性。未检测到这些变异(假阴性)或调用不准确的变异(假阳性)可能导致误诊。例如,串联重复序列长度大于短序列的变异可导致肌营养不良;大型结构变异可导致智力障碍;基因PMS1同源物2(PMS2)中的变异可能导致Lynch综合征。PMS2中有一个紧密相关的假基因,使得短读序列的定位具有挑战性。基于HTS的一些诊断检测可能会遗漏或误诊这些疾病。目前正在改进各种技术使得基因组测序可应用于临床诊断。
要旨
HTS对于人类基因组选定区域的分析效度较高。对于临床决策者来说,了解任何特定临床测序检测的优势和局限性都很重要。对于困难的变异和困难的基因组区域,需要具有长读和高精度读取的稳健测序技术以及参考材料,以充分发挥临床测序分析检测所有临床重要变异的潜力。
参考文献:Poplin R, Zook JM, DePristo M. Challenges of accuracy in germline clinical sequencing data[J]. Journal of the American Medical Association,2021,326:268-269.