医学里程碑
2011年08月号
医学进展
医生日记
医学里程碑

全基因组关联研究

药物有效性安全性与GWAS研究

    基因突变遍布于人类基因组。人类遗传学的一个根本性的挑战是设计全面测试影响人类遗传变异的临床特征实验,包括药理特征。直到最近,它在技术上的可行性测试范围内有约20000个基因,这在人类基因组中仅是极少的一部分。虽然范围有限,但目前已有的研究表明,候选基因的研究已经在华法林剂量要求、氯吡格雷的反应面积、硫唑嘌呤毒性等方面取得突破。GWAS可同时检测数十万基因突变,使基因单核苷酸多态性(single nucleotide polymorphisms,SNPs)研究在技术上变得可行。早期的GWAS研究往往关注于疾病风险的研究,鉴于基因多态性与药物作用的关系,现在GWAS的研究也必将在药物药理学特征上取得重要的进展。例如,慢性丙型肝炎病毒感染患者的一个利用GWAS确定的三磷酸肌苷焦磷酸酶(Inosine triphosphate pyrophosphatase,ITPA)的基因,可防止利巴韦林引起的溶血性贫血。

    一个关于二甲双胍血糖反应的GWAS研究确定治疗效果与共济失调毛细血管扩张症突变基因(ataxia telangiectasia mutated,ATM)SNPs有关。这两个GWAS都发现了意想不到的生物途径,表明无偏研究的重要性,因为现有对于药物的作用机理的认识可能是有限的,即使是广泛使用的药物。另一方面,华法林的反应的药物基因组学研究,为GWAS如何进行补充和扩展候选基因研究提供了很好的例子。例如,Takeuchi等人报道的GWAS证实了先前所描述的CYP2C9和VKORC1变种,但也发现其他代谢酶(CYP4F2)的贡献。

GWAS结果的解释

    GWAS研究特别容易受到假阳性结果的干扰。因此,至关重要的是施加严格的统计标准,以确定真正的突变点,包括非常严格的P值截断及独立的研究验证,应在研究的统计权重(规模效应和样本大小)范围内考虑P值。因此,未能达到统计意义的全基因组水平研究不能自动排除任何SNPs对于表型的贡献。此外,遗传变异的功能特征性生物实验(例如,在细胞系和动物模型)对于如何理解存在于基因型-表现型之下的内在机制是至关重要的。

    目前大多数GWAS的平台仅仅关注于单核苷酸多态性对整个基因组的变异的影响,而不是功能的代表性。因此,GWAS所得到的单核苷酸多态性(或位点)通常不是有意义的变异,而是与药物反应的基因表型有因果关系(例如,通过与基因型之间的紧密相关的连锁不平衡,在邻近的变种,是高度相关的标记位点)。然而,GWAS关注的是重要的基因组区域,使集中的测序深入基因表型,以确定实际的基因及其因果变异。此外,主要与孟德尔遗传紊乱有关的罕见DNA变异,在当前的GWAS研究水平下较难被重现出来。新GWAS的阵列将提供测试低频的DNA变异的潜力。

    如果仅在一组患者中含有过剩数量的罕见变异与其他患者相区别,例如在临床上毒性反应较大及较小的患者,该基因只能通过直接测序来测试额外罕见的变异。直到最近,在大的病人集合中获得全基因序列还是显得过于昂贵。

    随着测序成本的不断下降,预计“下一代”的测序将成为一个强大的方法而服务于药物基因组学。事实上,使用(或外显子组/转录)全基因组测序,以发现疾病(如孟德尔遗传疾病以及癌症)的遗传基础已经开始了与现有GWAS技术融合的趋势。即使有完善的药物基因组学的关系,遗传变异通常仅能解释所观察到患者间变异的一小部分。在传统的GWAS研究中,以下两种突变很少得到充分的解释,一种是与表型无关的常见的SNP,另一种是具有很大影响的罕见突变。其他变异未必来源自父母(生殖细胞)的DNA部分编码,但却反映在DNA的甲基化或组蛋白修饰的变化(合称为表观遗传修饰)、一个人的一生中发生的体细胞突变(例如,在肿瘤细胞)和环境因素。抗癌药物的药物基因组学是复杂的,因为宿主和肿瘤基因组的遗传变异参与确定药物的抗癌作用。一个重要的例子是吉非替尼,其功效是与激活其在非小细胞肺癌肿瘤细胞的分子靶点EGFR突变有关。

#p#副标题#e#

未来的挑战

    一些与药物研究有关的GWAS已经清楚地表明GWAS在理解突变体药物作用的可行性和潜力,以及药物基因组学的临床应用价值。未来的药物基因组学研究可能向大样本和地频率突变方向发展。但是大样本研究往往较难得出直接的药理学特征。如果可能,形成临床研究的大样本量生物样品库是一个可行的解决方案。另一种手段是寻找和解释收集表型数据的替代方法。

    基因组技术在理解药理特性与基因变异间的关系中取得进步。早期的研究预示着未来药物基因组学研究将为阐明药理学作用的多态性提供重要的工具。

组织GWAS的通用方法

    目前,GWAS已形成较为标准的、默认的研究技术,在多个医学和生物科学研究中有着重要而广泛的应用。一般的研究流程如下图。

人群的圈定

    一般地,采用GWAS总会面临一些实际的问题,这也是其他所有技术都必须面临的首要问题,就是,“研究者究竟想得到怎样的信息”。这是在技术可行性之前就要考虑到的问题,例如某些有遗传因素的复杂疾病,调查家族疾病史来获取疾病与遗传的关系是否就足以得出结论?GWAS所得出的基因多态性意义在哪里?这实际上直接影响到人群的圈定,直至最终结果的正确性。例如,GWAS现在一个比较重要的来源即是检测某些复杂遗传疾病的易感性,那么家族性的GWAS就成为重要的研究来源。

#p#副标题#e#

基因分型

    最初的GWAS多采用两个阶段的设计:首先采用覆盖整个基因组的高通量SNP分型芯片对一批样本进行分型和分析,然后筛选出最显著差异的SNP(如P<10-7)进行验证。GWAS两阶段研究设计减少了基因分型的工作量和花费,同时通过重复实验降低了研究的假阳性率。然而这种两阶段的研究设计却存在着另一个问题:第一阶段通常在较少样本中对全基因组数量庞大的SNPs进行分析(可达100万个),因而没有足够的检验效能发现所有可能与疾病关联的SNPs。因此,为了发现更多的易感基因/位点,目前常采用的方法就是在扩大GWAS样本量的同时,适当放宽第一阶段筛选SNPs的标准、扩大验证范围。

    以类风湿性关节炎为例,2007年,Welcome Trust Case ,Control Consortium (WTCCC) 在7种重大复杂疾病的GWAS仅发现PTPN22和MHC与疾病相关联。随后,Thomson等在前期基础上对5×10-7<P <10-5的SNPs进行验证,发现一个新的易感位点6q23(TNFAIP3)。此后,Barton等进一步选择10-5< P <10-4的SNPs进行验证,又发现3个新的易感位点(10p15、12q13 和22q13) 。

基因型填补

    已经报道的GWAS所采用的基因分型芯片大多可以同时检测50万个SNPs位点或低于这个水准,远远少于HapMap中的1000万个SNPs位点,一些真正与疾病相关的位点可能会被遗漏。尽管全基因组DNA测序可以解决这一问题,但是对于大多数研究者而言费用过于昂贵。填补可以根据已检测位点基因型信息和HapMap提供的单体型结构,推断未检测位点基因型,进而对该位点与疾病的关联性进行分析。BEAGLE、IMPUTE、MACH和PLINK等多种工具均可实现这一目标。由于该方法具有经济和高效的特点,在目前开展的GWAS中应用已经十分常见。此外,填补还可以对一些分型失败位点的基因型进行推测和校正; 更重要的是,GWAS的Meta分析需要将不同分型平台的数据合并分析,由于不同平台所检测的SNPs位点也不尽相同,因此填补也是合并数据过程的关键步骤。目前填补主要使用HapMap数据作为参考对照,但由于HapMap计划所分型的样本数量相对较少,因此参考对照的基因分型数据并不能完全准确代表各人群的真实情况。随着“千人基因组计划”的完成,将能够提供更加全面和准确的DNA序列变异数据。

#p#副标题#e#

质量控制

    一般地对GWAS进行的质量控制围绕以下几点进行:

    次要等位基因频率 (minor allele frequency,MAF): 仅仅保留MAF> 1%的SNPs。大量低频率的次要等位基因将会产生偏倚。 Hardy-Weinberg平衡检验(Hardy Weinberg Equilibrium,HWE):用于排除偏倚。 重复:对重复的实验与实验进行样品数据比对,并要求出Kappa系数。 平均杂合性:求出杂合性分布的点状图。

关联性实验

    精细定位是通过增加易感区域内遗传标记的检测密度,找到与疾病关联程度最强的一组变异,进而确定易感基因或者缩小易感区域。通过GWAS发现的关联信号通常来自常见变异,然而目前常见SNPs目录并不完整,即使第2代的HapMap数据库也仅能提供全部基因组30%的常见SNPs。因此,要想获得一个区域完整的SNPs信息,对一定数量的参考对照进行测序是必须要做的工作。通过对该区域的测序还可能发现一些新的拷贝数变异(Copy number variations,CNV)或者小的插入-缺失变异,建立SNPs与这些DNA序列变异间的关系,有利于确定与疾病相关的功能性变异。例如: 与克隆病相关的一个非编码SNP与IRGM基因上游一个20kb缺失有很强的连锁关系。由于缺失变异可以影响基因表达,因此这个20 kb缺失可能是真正与疾病易感性相关的变异。

    尽管通过GWAS发现的关联信号通常来自常见变异,但是高外显性的少见变异对疾病的作用也不容忽视。许多疾病相关的少见变异在普通人群中十分罕见,或者为近代新出现的突变,所以不能够通过SNPs间的连锁不平衡关系进行分析。因此,对于患者的疾病易感基因候选区域进行深度测序是有效的补充手段。由于全基因组测序的费用极其昂贵,所以目前多针对GWAS或连锁分析发现的候选区域进行测序。

#p#副标题#e#

研究的重复

    由于GWAS研究的各种研究设计方法以及遗传统计方法无法从根本上消除人群混杂、多重比较造成的假阳性,我们需要通过重复研究来保证遗传标记与疾病间的真关联。

    通过增大样本数量来提高检验效率,增加与疾病相关联的SNPs的概率。

    在两个人群中分别对样本中所有的SNP进行基因分型,之后再交换重复测量对方得到的阳性SNPs。这样做首先保证了低假阴性率,随后在较大样本中重复阳性结果又最大程度地避免了假阳性的产生。

技术发展:来自《自然遗传学》主编的话

    在今年刚刚结束的GWAS学术会议上,《自然遗传学》杂志主编提到了以后该杂志送审的标准。从中我们可以看出GWAS发展的趋势。从核心的技术上看,高通量的基因分型技术和大规模测序技术已经可以从技术上满足GWAS发展的需要。但是,未来的研究要求研究者必须首先了解寻找的突变和基因多态性是否与疾病或治疗有关,或者以纵向队列和以新策略进行的GWAS研究,又或者提出了新的推算方法等等在方法学上予以拓展的研究。

    这便意味着当更大规模的研究来寻找的疾病更多微效基因时,GWAS的回报会越来越少。但技术的发展终究是为了人们获得知识而进行的有序的工作,GWAS不仅会更加高效廉价、切实可行,也会使人们获得关于疾病、疗法的最基本知识。

(作者:李秋实)

Copyright 1994-2015 Cinkate.com.cn All Rights Reserved 沪ICP备10014127号-5