医学里程碑
2012年12月号
医学进展
医生日记
在他乡

从人类基因计划组到DNA元件百科全书

    随着人类基因组计划在2004年公布了完整的人类常染色体基因组序列,基因组学成为当今生物医学研究的主流。科学界提出的许多大胆的计划都随着基因组草图的完成而日趋明朗。

什么是基因,一种变化的观点

    现在学界公认的基因(gene)最初的概念是由Wilhelm Johannsen根据孟德尔遗传子的概念而发展提出的。而“gene”本身则来源于达尔文所提出的遗传学概念“泛生论”(pangenesis),词根在希腊语中代表出生(genesis)或来源(genos)。Jahannsen认为,基因是生物体表达一些特殊的、独立的特性而必须具有的某些特定的条件、基础或限定子。孟德尔证明,植物的一些特性,如植株的高度或花的颜色并不因为杂交而混合,这些特性总是鲜明而离散的。他的研究还显示出可遗传物质是植株性状变化的原因,用现在的用语可以进行如下表述:遗传型决定表型。

    在美国遗传学家托马斯•摩根(Thomas Morgan)看来,基因是一些独立的位点。当时的实验认为基因按照线性的排列,基因的交叉能力与将其分离的距离呈正比关系。对早期遗传学家来说,基因是一种抽象实体,它们的存在只能依靠遗传给子代的表现型来体现。在摩根发表其著名的文章《孟德尔遗传机理》之后16年的1929年,基因与染色体之间的关系才被麦克林托克(Barbara McClintock)等人所阐明。

    Beadle及Tatum在研究链胞霉代谢时发现,基因的突变可能会导致酶促反应无法进行,这就是现代所称的“一种基因一种酶”的观点,后来则衍变成“一种基因一种多肽”。在此观点下,基因被认为是每种在生化反应中起作用的生物分子背后的信息物质。后来在X射线衍射技术的发展带动下,人们才意识到基因的本质是DNA而非蛋白质。这一技术也直接导致DNA双螺旋结构的发现,Watson及Crick因此获得诺贝尔奖。

    从20世纪60年代开始,分子生物学技术得到快速发展,Nirenberg等人利用基因编码技术推测出蛋白质编码序列的RNA转录序列。Crick提出了著名的“中心法则”。此段时间对基因的观念可概括为DNA的序列信息可被转化为有功能的产物。

    测序和克隆技术,以及基因编码知识为分子生物学提供了强劲的动力,在1976年,第一个物种,噬菌体MS2的全序列测定公开发表。与“湿”方法共同进步的还有计算方法:通过识别基因序列的特征来确定基因。正因为有了这些方法,“为基因命名”及“开放阅读框”等概念主导了20世纪70至80年代的分子生物学学科。

    目前对于基因的概念是由人类基因组命名组织(Human Genome Nomenclature Organization)给出的:“基因是一段DNA,可与生物表型或功能有关,如缺乏功能的表达,则该基因可被测序、转录或同源序列所确定。”序列实体论组织(Sequence Ontology Consortium)在2006年的文章中则认为基因是:“基因组上可确定位置的一个部分,对应于与遗传有关的一个单位,可能是蛋白编码的DNA,或是起到调控及转录作用的部分。”

#p#副标题#e#

人类基因组,一个草图

    今年是人类基因草图公布的11周年。在不久的20年前人类开始了这项有史以来最为庞大的科学计划,这项计划前后13年,预算达到30亿美元,有6个国家先后参与其中。伟大事件的发生总是有无数个“为什么”,人类如何认识自己?人和自然如何共存?生命的奥秘是什么?这些都可以成为人们开始这项计划的原因。但是,推开这些冠冕堂皇的目的,我们要求的不过是生活得更健康、更长寿。而从另一个层面来说,从达尔文或更早的一段时间,生物学家就希望用一种切合生物学实践的视角或方法来理解生命尤其是人类本身,而非物理学家或化学家那样通过简单的公式来应对所有遇到的问题。

    1975年的诺贝尔奖获得者Renato Dulbecco曾在《科学》杂志发表短文《肿瘤研究的转折点:人类基因组测序》。文中这样讲道:“如果我们想更多地了解肿瘤,我们从现在起必须关注细胞的基因组。…… 从哪个物种着手努力?如果我们想理解人类肿瘤,那就应从人类开始。……人类肿瘤研究将因对DNA的详细知识而得到巨大推动。”究竟是敲敲打打地研究疾病还是毕其功于一役?显然人们选择了后一种。

    其实有人比Dulbecco先生想得更早。早在1984年美国能源部就邀请一些专家召开小范围会议讨论整个人类基因组的意义和前景。1984年在科罗拉多州举行的一个科学会议上,美国能源部科学家建议发动全国的科技力量来做人类基因组图谱的分析工作,结果支持者寥寥。因为以当时的技术水平,每分析一个碱基对需要3美元〜5美元,搞清 30亿个碱基对的排序需要150亿美元的巨资。

    在经过近20年的努力下,来自6个国家的科学家先后加入这个计划中,并在20世纪的最后几天宣布完成了人类基因组。白宫曾在新闻公报上发布了对于人类基因组测序完成后的美好愿景,同时许多人也认为人类基因组测序的完成是一个里程碑式的成就,它将把我们带入一个分子医学的新纪元,将为预防、诊断和治疗疾病带来新的方法。在20世纪的最后几天,人们找到了可以狂欢的理由:疾病迟早会被解决掉,我们每个人都会长寿,人们期望着基因组代表着下个世纪的曙光,经历过两次世界大战的人们需要这个好消息。

后基因组时期的憧憬:一个开放性问题

    随着人类基因组计划在2004年公布了完整的人类常染色体基因组序列,基因组学成为当今生物医学研究的主流。科学界提出的许多大胆的计划都随着基因组草图的完成而日趋明朗。在医学界看来,基因组计划对于健康的认识可以加速癌症研究的步伐,加深对一些遗传性疾病分子基础的认识,了解疾病产生的基因结构性变化,并直接用于产生新疗法。不仅如此,微阵列技术(或称芯片技术)已经开始成为生物医学研究的日常手段。

    早在人类基因组计划接近尾声的时候,美国国家人类基因组研究中心(National Human Genome Research Institute,NHGRI)就开始向科学界咨询下一步基因组学的工作计划。这些讨论主要集中在以下几个方面:理解人体生物学,诊断、预防治疗疾病以及对人类社会可能的影响。在过去十年中基因组为人类疾病知识的积累做出了重要贡献,对疾病认识的深化一定有利于人们找到更好的治疗方法,但这并非一蹴而就。

    为了使人类基因组计划真正能为临床所用,生物医学界又提出了若干研究计划以拓展人类基因组计划。这其中包括国际人类基因组单体型图计划(haplotype map,简称Hapmap),千人基因组计划(1000genome)以及人类基因组百科全书计划(ENCODE)。

    HapMap计划是一个多国参与的合作项目,旨在确定和编目人类遗传的相似性和差异性。利用HapMap获得的信息,研究人员将能够发现与人类健康、疾病 以及对药物和环境因子的个体反应差异相关的基因。项目由来自日本、英国、加拿大、中国、尼日利亚和美国的科学家和资助机构合作完成。它依赖于对单核苷酸多态性(Single nucleotide polymorphism,SNP)的分型,而常用的工具则是全基因组关联研究(Genome Wide Association Studies,GWAS)。

    基因突变遍布于人类基因组。人类遗传学的一个根本性的挑战是设计全面测试影响人类遗传变异的临床特征实验,包括药理特征。同时检测数十万个内生的基因靶标的临床研究——GWAS带来了医学研究的新发现。以研究疾病发病与进展为目的的基因关联研究成为药物基因组学不可或缺的组成部分和内涵,现在GWAS研究又为药物治疗效果评价提供了解释的依据。GWAS可同时检测数十万基因突变,使SNP研究在技术上变得可行。早期的GWAS研究往往关注于疾病风险的研究。鉴于基因多态性与药物作用的关系,现在GWAS的研究也必将在药物药理学特征上取得重要的进展。截至目前(2012年12月6日),已经完成1447个GWAS研究,识别出7962个SNP。但是根据Stamatoyannopoulos等人的观察,53%的GWAS研究无法解释与疾病究竟如何相关,它们走进了“死胡同”,仅有7%的SNP发生在蛋白编码区域。仅占DNA1.8%的功能基因变异无法解释与基因表型的相关性。

#p#副标题#e#

ENCODE计划

    从一系列简单的原材料开始,将它们以精确的比例混合后来准备一顿美食是件富有挑战性的工作。这样的工作在许多方面都类似于编写百科全书,尤其是DNA元件及组装百科全书。在经过10年的努力之后,人类基因组百科全书的参与者终于献上了这样一场盛宴。来自32个科研机构的442名研究人员获得并分析了超过15TB(1TB=1000GB)的原始数据,目前已经全部公布。

    早在2007年公布的ENCODE探索性研究中,研究人员仅完成了DNA的1%部分的测定。尽管许多评论质疑这种扩大基因组研究到整个DNA,并且是147种细胞的DNA的做法,但是近年来低廉价格的测序手段打消了这一部分顾虑。事实上,ENCODE确实获得了对人类DNA更加深刻的认识。在今年《自然》杂志刊登的文章中,研究人员发现DNA组件中有80%至少在一种调控中被激活。在基因与基因之间并非“垃圾”DNA,而充满了增强子、启动子以及参与到RNA转录中起调节作用的DNA。这似乎能与在以前研究者们通过GWAS研究发现的非蛋白编码疾病相关区域相互印证。

    Djebali及其同事通过超深RNA测序技术测定了不同细胞来源的RNA,他们发现75%的人基因组能够发生转录,并且观察到几乎所有当前已标注的RNA和上千个之前未标注的RNA的表达范围与水平、定位、加工命运、调节区和修饰。而且其中的一些基因与转录副本交织在一起,这些发现让人们不禁思考什么才是遗传的最小单位。

    Thurman等人及Neph等人的文章均采用了DNase I超敏感位点(DNase I hypersensitive sites, DHSs)技术识别DNA酶可剪切的位点。Thurman等研究人员通过对125个不同的细胞和组织类型进行全基因组谱分析而鉴定出大约290万个人DHSs,并且首次大范围地绘制出人DHSs图谱。Neph等人对41种不同的细胞和组织类型进行基因组DNase I足迹分析(genomic DNase I footprinting),研究人员在DNA调节区内鉴定出4500万个转录因子结合事件,从而代表着这些转录因子与840万个不同的短DNA序列元件存在差异性的结合。他们还发现影响等位基因染色质状态的基因变异体集中分布在这些足迹之中,并且这些序列元件优先得到DNA甲基化的保护。他们鉴定出一个 固定不变的50个碱基对长的足迹,并且这种足迹精确地确定着上千个人启动子内的转录起始位点。

    为了确定人转录调节网络的作用原理,以Gerstein为首的研究人员进行了450多项基因组实验,研究了119个转录相关因子的结合信息。与以前的“X蛋白结合DNA上的Y部分”那样的一一对应的研究不同,他们发现转录因子的组合性结合是高度环境特异性的:转录因子的不同组合结合在特异性的基因组位置上。他们对所有的转录因子进行组装而产生一个层次结构,并且将它与其他基因组信息整合在一起而形成一个严密而又庞大的调节性网络。

    Sanyal及同事选择1%的基因组作为项目试点区域,并且利用染色体构象捕获碳拷贝(chromosome conformation capture carbon copy, 简称为5C)技术来综合性地分析了这个区域中转录起始位点和远端序列元件之间的相互作用。他们获得GM12878、K562和HeLa-S3细胞的5C图谱。在每个细胞系,他们发现启动子和远端序列元件之间存在1000多个远距离相互作用。DNA上的启动子通过长距离作用结合到远端的增强子上起到调节作用。

#p#副标题#e#

ENCODE与基因组医学

    获得基因组结构和功能的信息以后,生物医学的研究人员将首先掌握关于疾病的知识,而且掌握了基因组水平的研究手段。具备了这两方面,基因组水平的诊断就可以成为人们常规的诊断方法,尽管现在基因组测序还仅仅处于实验室阶段,但可以想见的是在未来10年中一些医疗机构将具备基因组诊断的平台,包括基因组、表观组、转录组及微生物组分析的能力,就像当今血液生化指标检测一样易得。

    疾病的产生和发展包涵基因及环境两个方面,基因组学的发展一定会满足疾病所有与基因相关的内容,基因组测序可能会包括所有疾病谱的全部遗传学信息,从罕见的遗传病到病因复杂的疾病。而关于癌症的生物学理解将是所有疾病的重中之重,现在人们已经认识到癌症是一大类从遗传角度来说不同的疾病的总称,对于每一个亚型的理解还包括每种癌症细胞的信号传导的不同。基因组学的认识将加强人们如何诊断癌症并加以干预的能力。

    对于疾病的认识绝非简单的、一劳永逸的,21世纪的前十年人们对此应有相当深刻的理解。对于在分子层面认识还很匮乏的生物学家和医生来说,基因组学或所有DNA组成成分的研究将为他们提供一种无偏的、便利的研究手段。而基因组医学也必将成为人们可以理解的科学。

    而今年的ENCODE计划至少从几个方面加深了人们对于基因组的认识。首先,几乎所有的DNA组分均有功能,而非以前认为的“垃圾”DNA;第二,基因组从多种途径对转录进行调控,每种研究工具都是对于生物过程的一种模拟和跟踪;第三,尽管大量的DNA组分本身并不编码蛋白质,但是却具有决定性的功能,非蛋白翻译RNA(link RNA)起到至关重要的调控角色,这也说明仅仅把注意力集中在蛋白编码DNA会遗失基因组重要的组成部分;第四,转录后修饰的无偏分析也印证了进化中重要的组成部分:表型的形成规律;最后,ENCODE计划是从目录到功能的进步,每个DNA的组成部分都具备一定的功能,这无疑告诉人们,DNA的答案绝非简单。

    “就像一位即将开展印度之旅的探险者却误打误撞闯进西半球一样,我们确实发现了一些东西,但它们根本就不是我们自认为的那样”,ENCODE计划果然能够解谜所有的未知之谜么?麻省总医院的Job Dekker,ENCODE计划一个研究小组的组长说:“有时候你需要很长一段时间才能知道你从一段数据里面学到了什么。”(作者:李秋实、肖飞)

文章来源:《Nature》470:198-202

《Nature》489:49-51

《Nature》470:204-213

Copyright 1994-2015 Cinkate.com.cn All Rights Reserved 沪ICP备10014127号-5