现代观点
2011年03月号
医学进展
医生日记

系统生物学——21世纪的生命科学

    系统生物学(systems biology)是生命科学领域的一门新兴学科,是研究一个生物系统中所有组成成分,包括基因、mRNA、蛋白质和生物小分子等的构成,以及在特定条件下这些组分间相互关系的学科。与传统实验生物学仅关注单个基因或蛋白质不同,系统生物学侧重于整体研究,如细胞内单个因素的变化对细胞网络的代谢、机体生存和适应性的影响,探寻从单细胞低等生物(如酵母)到植物、复杂高等动物以及人类的基因和蛋白质组分间的所有相互关系。从另一个角度说,系统生物学并不是一个新生物,而是基因、蛋白质组学等学科高速发展和有机结合的成熟产物。

    系统生物学的基本流程包括四步。首先是分析某一生物系统的所有组分,描绘出该系统的结构,包括基因相互作用网络、代谢途径以及细胞内和细胞间的作用机理,构造出一个初步的系统模型;第二步是系统地改变被研究对象的内部组成成分(如基因突变)或外部环境,观测系统组分或结构发生的变化,包括基因表达、蛋白质表达和相互作用、代谢途径等,并把得到的信息进行整合;第三步是把实验数据与根据模型预测的情况进行比较,并对初始模型进行修订;第四步是根据修正后的模型的预测或假设,设定新的改变系统状态的实验,重复第二步和第三步,通过实验数据不断对模型进行修订和精练。目标就是要得到一个理想的模型,使其理论预测能够反映出生物系统的真实性。

系统生物学发展简史

    对于大多数研究者而言,系统生物学在刚刚过去的10年间经历了一个高速发展时期,而系统生物学概念的诞生可以追溯到将近100年前。1917年,苏格兰生物学家、数学家及古典学者达西•汤普森(D' Arcy Thompson)在他的专著《论生长与形态》(《On Growth and Form》)中首次阐述了生物形态和构造的发展,以及外力对它们所产生的影响,从数学和物理学层面分析了生命的进程。1939年,美国 20 世纪最为杰出的生理学家之一、哈佛医学院生理学系的沃尔特•坎农(Walter Canon)教授创建了生物体的“自稳态”(homeostasis)理论,认为生物可以控制自身的体内环境使其保持相对稳定状态。1943年,美国数学家诺伯特•维纳(Norbert Weiner)创立“控制论”,指出负反馈是生物体维持内环境稳定的生理学基础,揭示了机器中的通信和控制机能与人神经机能和代谢的共同规律。10年后英国发育生物学家康拉德•瓦丁顿(Conrad Waddington)首次提出生物构成(如:基因、细胞和组织)网络是一种在进化过程中具有动态变化特点的系统,从而创建了“表观遗传学”(epigenetics)学说。法国学者杰克斯•雅各布(Jacques Lucien Jacob)和弗朗索瓦•莫诺(François Monod)于1962年揭示了生物体内基因调控的分子学机制。

    这些丰富的理论为多学科的科学家们深入研究机体生物化学网络的非线性代谢途径奠定了坚实的基础。20世纪60~70年代,生物科学界不断涌现出大量创新理论,包括生化转换及震荡模型(注:细胞信号转导并非是直线的、单一的模式,而是曲线的、网络的,非常复杂。一个信号不是单一传导的,而是受到许多其他蛋白质或信号的影响,从而构成一个信号反馈网络。生命体要维持信号的精确性,就需要在信号转导过程中不断通过正负反馈进行修正,即震荡现象;细胞周期的调控不仅是网络状的,也是一种震荡调控模型)、生物代谢控制分析以及细胞网络逆向工程等。这些理论主要关注网络的形成方式以及生物体如何利用该网络实现特定的功能。到20世纪70年代早期,分子和细胞作用网络的理论基础渐趋成熟,系统生物学理论的诞生处于“万事俱备,只欠东风”的局面,因为当时的科学家们面临着一个巨大的障碍,他们缺乏支持上述模型或假说的实验数据。

    自1990年起,新型分子生物学技术的出现推动着基因检测、改造以及细胞成分分析以前所未有的速度迅猛发展。在这些新生技术中,许多技术的发展轨迹遵循着摩尔定律(Moore' s law-type),即每隔数年,经人工测序或合成的DNA数量增加一倍,而花费降低一半【注:摩尔定律是由英特尔——Intel创始人之一戈登•摩尔(Gordon Moore)提出来的。其内容为:集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍,而价格下降一半;或者说,每一美元所能买到的电脑性能,将每隔18个月翻两倍以上】。由此可见,基因检测水平的提高对系统生物学的发展起重要推动作用。

#p#副标题#e#

原理与预测、关联与因果

    通过对系统生物学发展史的简要回顾,可将已发表的相关文献按照侧重点及方法学的不同归为以下四类:原理(principle)、预测(prediction)、关联(correlation)与因果(causation)。上述四类研究的关系可用坐标轴来表示(见上图),Y轴代表两种不同的研究方向:预测生物细胞网络的作用原理以及通过逆向工程预测细胞网络的变化对生物行为的影响。随着生物学数据库的扩增,又衍生出两种相应的科研方法,即相关性研究(correlative study)和因果关系研究(causal study)。相关性研究主要用于染色体分析,推断基因与模块(module)之间的关系。科学家们推断, 存在于同一个区域的基因或可以互相配合,启动转录的基因之间可能具有一定的相关性,即“连坐”(guilt-by-association),因此生化信息可以在相关的基因或系统之间进行传递。这种方法与仅仅通过检测分子间直接作用并作出机械性推断的“随意性”手段形成鲜明对比。显然,四种方法是相互关联的,原理与预测并不矛盾,相关性与因果关系也不是相互独立的,随着遗传学和生物化学技术的进步,相关性研究和因果关系研究的区别变得越来越模糊。

相关性研究及其预测功能

    基因组学研究让人们对细胞网络系统有了更深刻的认识,帮助人们观察外界环境的变化对基因表达水平的影响,将基因表达的变化与表型的改变、生长发育、生物合成以及繁殖能力相结合,并预测细胞网络系统的调控行为。网络组织构成可以分为四层结构:调控元件(regulatory element)、模体(motif)、模块(module)和整个网络。模体由少量的基因按照一定的拓扑结构构成,模块则由多个模体构成;因此模体和模块都是由基因集合构成的调控模式,是分析网络构成及研究调控机理的重要结构。

    相关性研究的特点之一是从不断变化的RNA、蛋白质、DNA拷贝数或代谢物水平来推断生物分子的功能和特性。通常情况下,人们认为表达水平相同的基因在某种程度上拥有共同的调节因子和功能。人们已经利用聚类技术分析基因表达的复杂相关性,Cheng和Church于2000年引入了一个新的计算法则——“双向聚类法”(biclustering),其研究对象为一群基因,也就是前文提及的模块,从基因复杂的相关性中寻找表达形式类似的模块,建立了由模块到细胞网络的等级结构。由于单个基因可能归属于多个模块,因此可以推断它们不仅具有多种功能,还存在组合调节作用。这些具有相同功能的模块大大简化了细胞网络模型的结构,也就是说,人们不需要再逐一推测单个基因的功能,只要通过对模块的研究就可了解系统的构成及功能,避开了复杂繁多的变量分析和数据统计。

    在判定某一组成成分对特定细胞反应过程的作用上,基因表达的检测,包括基因干涉(genetic perturbation)和活性分析,可作为一种间接的判断方法。Giaever构建了啤酒酵母(Saccharomyces cerevisiae)全基因组基因缺失突变体文库(bar-coded deletion library),用来分析不同株系群的酵母在特定环境下的生长情况及适合度(fitness,是指个体在一定条件下,能生存并传递其基因于后代的能力)。随后,Hillenmeyer利用1000种化学干涉法鉴定了酵母全部基因的生长表型。这些研究不仅有助于明确药物作用的细胞靶点和特异性转运体,还阐明了在特定条件下,表达发生变化的基因并不一定是该环境特异性功能基因。

#p#副标题#e#

关于系统的相关性假设

    如今,科学家们的关注点已经从单个基因的功能转向基因模块间相互关系的推断。2001年,Ideker等人利用基因表达和大分子物质之间关联的数据,分析了酵母半乳糖利用途径的调节方式,并预测了系统对基因干涉的反应。随着多变量统计的发展,越来越多精密的计算法则用于相关性计算。Hartemink创建了首个判断网络结构分级和分子间相互作用的贝叶斯算法(Bayesian approach),并推断了酵母半乳糖通路的调节作用。两年后,Segal对该计算法则进行改进,提高了它在判断特定转录因子调节基因模块功能方面的效力。该法则曾经预测了转录因子Ypl230w和信号分子Kin82、Ppt1在细胞热休克、低渗性转换和进入静止期过程中的重要作用。

    Janes等人利用“偏最小二乘法回归分析”(Partial Least Squares Regression)分析了生长因子和各种细胞因子对哺乳动物细胞生存、凋亡、细胞内蛋白质磷酸状态和激酶活性的影响,成功预测了细胞因子调节凋亡的水平,明确了自分泌通路级联反应参与介导细胞外信号对细胞内通路的影响的观点。Bonneau等人发现环境会影响生物基因组的动态表达,并在很大程度上影响着基因编码组分结合成完整而具有生物功能的网络的过程。他们破译了一种嗜盐古生菌NCR-1转录调节网络,预测了在100多种不同的条件下基因表达的变化情况。最近,这种系统相关性分析方法又将生物分子作用网络与生态网络联合在一起,为人们揭示生物体系和生态系统相互作用的最新理论。

生物网络体系的组成

    从相关性分析的数据可以推断,基因表达过程是由功能明确的基因模块实施的,这也提示生物网络体系中存在一定的组织学法则。人们已经在蛋白质相互作用和代谢网络的研究中发现与此类似的等级模块,例如分子网络存在的“无尺度拓扑”(scale-free topology)现象。无尺度拓扑是指无尺度网络的拓扑结构,大多数网络都是由少数具有众多连结的节点所支配的,包括因特网以及细胞代谢系统等;包含这种重要节点的网络称之为“无尺度(scale free)网络”。无尺度网络中,大部分节点只有少数几个连结,而某些节点却拥有与其他节点的大量连结,这些具有大量连结的节点称为“集散节点”。例如因特网是一个无尺度网络,其中某些站点似乎与无数的其他站点相连结,而大多数站点只与少数几个站点相连。在细胞代谢系统中,两种蛋白质能相互反应就认为是彼此“连结”的。人们也在酵母的数千个蛋白质中找到了无尺度拓扑结构:大部分蛋白质只与其他一两种蛋白质发生相互作用,但有几种蛋白质却能与大量的其他蛋白质相结合。目前,无尺度网络拓扑结构的研究在网络和生物学领域获得广泛关注。在医学上,如果能明确人体细胞或代谢网络结构的“集散节点”,将有助于开发只针对这些节点的高效、低毒药物。

    生物体无尺度网络的一个重要特点就是,它们对进化过程中基因复制和趋异(divergence)现象所导致的外界干扰的承受能力很强。在发育生物学方面,关于完整的细胞网络在进化时是否需要分离成不同等级的独立模块,以避免来自其他模块信号的干扰,学界的争论一直未停。因此,这些独立的细胞和基因模块在相互作用或表达时,其内部动力学就会发生重排和调整,这也造就了它们的进化特征。

#p#副标题#e#

    一些拓扑结构的模体可能是调控细胞间相互作用或化学反应的小型网络。大型数据分析显示,某些模体出现的频率远远超过随机几率,包括前馈环路(feed-forward loop)和反馈环路(feedback loop)。这些模体不仅具有强大的抗干扰作用,在进化过程中还保持了弹性、可调节性等生理特点。

    Segrè于2005年提出了一种新型细胞网络体系原理,他认为通过分析突变基因双敲除模型动物的生长表型,可以对功能性模块进行推断。此外,位于模块内两个基因对之间的上位相互作用(epistatic interaction)往往呈现以下两种表现之一:缓冲作用——上位效应掩盖了其中一种突变的表型,或促进作用——两种突变中有害突变方的恶性效应被扩大【注:上位相互作用是指在控制某一单位性状的两对基因互作时,其中一对基因抑制或掩盖了另一对非等位基因的作用,即不同对基因间的抑制或掩盖作用】。Costanzo等人去年发表在《科学》杂志上的研究指出,模块内部不包含混合型基因,因此模块的功能具有“单一性”,该结果也在后来的研究中得到证实。

    然而,尽管上述关于网络体系原理的学说均来自于大规模相关性分析数据,人们依然需要寻找更加有说服力的证据,来证明和阐述这些体系的进化选择及功能。

研究因果关系的机械论方法

    相关性分析是迄今为止统计大型基因组数据的最佳方法,而因果分析(causal analysis)则必须以生化数据为基础,包括生物细胞网络效应产物如蛋白质、第二信使及代谢物等。可惜的是,关于这些成分的实验数据数量不多,无法与迅速扩大的基因组学数据库相媲美。基因组学数据的缺陷在于它是一元数据,而因果分析则是建立在分子间相互作用、反应及速率、定位及转运等多元化数据的基础之上。此外,质谱分析、成像、遗传感受器和化学探测器等技术也为人们提供了大量区别于基因层面的数据。因果分析的初衷是为了阐明细胞网络的作用原理,由于其数据对原理预测的准确度较高,使得因果分析的可信度日渐升高。

 

揭示生物网络体系的作用原理

    目前,生物网络模型的研究还面临诸多挑战。首先,分子机制非常复杂且往往是非线性的(例如:蛋白质相互作用及表型调节);其次,人们对分子机制的内在参数缺乏足够了解(例如:亲和力和速率常数)。但是对一部分系统而言,仅依赖其生物化学数据便足以构建出简洁、庞大的模型。Tyson等人曾建立一种较为理想的模型,他们利用35种常微分方程(ordinary differentiation equations)——一种可以计算化学反应过程和质量作用的计算方法,模拟了啤酒酵母细胞循环控制系统。该模型通过对酵母网络体系的模拟,描述了网络的结构、内部作用及代谢的动力学原理。El-Samad采用同样方法建立了大肠杆菌(Escherichia coli)热休克反应模型。尽管该反应过程非常简单——在高温条件下利用分子伴侣(molecular chaperones)促进蛋白质折叠,但充分体现了网络体系模块间复杂的控制和调节过程,以及大肠杆菌如何以最小的能量消耗获得反馈通路中快速、高效的生物学反应。Yi等人利用动力系统控制理论分析了细菌的趋化现象(chemotaxis)。负反馈是生物维持内环境稳定的重要方法,Rosenbleuth研究发现,完整的反馈控制体系是生物在面对外界干扰时保持稳定代谢的前提,尤其对体内多种蛋白质而言。有趣的是,控制论工程师也在相关领域论证了上述观点,他们发现电流环路和其他多种系统也需要利用“反馈”这一手段来保持系统的稳定性。

#p#副标题#e#

    但是,当生物网络内某些特定成分以低拷贝数出现,或是其参与的生化反应处于较低水平(又称“生化噪声”,biochemical noise),生物网络的进程将受到不同程度的影响。Elowitz通过对基因表达机制的研究发现,表达量或反应比率(reaction rate)的波动可在细胞水平和单基因水平上诱发生化噪声;后续的单分子成像技术也证实,转录和翻译过程均可出现噪声,直接导致目标基因表达受阻,细胞代谢有效性降低,细胞生长受阻碍。

    生化噪声是生物网络的固有特性,但是在生物遗传学中,生化噪声究竟是发挥正性、负性还是中性作用还存在争议。实际上,生化噪声的效应具有系统特异性,在特定情况下能发挥正性作用,提高生物遗传的适合度。由于在生存和进化过程中必须适应不断变化的环境,生物体演化出两种适应性策略,包括对环境变化的感觉、反应或表型随机转换。

    2005年,Kussell和Wolf的两项研究得出了共同的结论——在某些特定情况下,如生物体对外界环境变化的感应速度很低或出现感应缺失现象时,表型的随机波动则可以增加生物的适合度。Weinberger通过对HIV感染的随机效应的研究发现,基因表达的随机波动能够促使感染了HIV的细胞在体内潜伏。他们设计了一种带有Tat基因且能进入人类细胞的HIV-1载体模型。Tat是HIV复制的关键组成,如果一个细胞缺乏Tat,HIV基因组就无法转录和复制,从而进入潜伏期。利用此载体感染人类细胞后,他们发现最初表达低水平病毒的细胞很不稳定,但是数日后,这些细胞中一些表达高水平的病毒,而另外一些则关闭表达。这些关闭的基因在重新制造新病毒之前能够在细胞中潜伏若干年,因此被认为是药物无法将HIV从患者体内根除的最大原因。

    Acar建立了可发生随机表型转换的啤酒酵母株,不同转换率的菌株之间生长速率各异。在高波动频率条件下,转换率较高的菌株生长速度高于转换率较低者;转换率较低的菌株在低波动频率的条件下生长情况更好。

#p#副标题#e#

关于生物网络和细胞功能的预测分析

    分子间作用机制的复杂性与有效生化指标的缺乏一直是困扰预测性模型发展的瓶颈。Ibarra等人利用约束法研究了大肠杆菌代谢的模型,该模型与整体代谢模型的区别在于只需少量参数即可建立,并能对不同条件下的生物网络的功能进行预测。他们用该模型预测了大肠杆菌的代谢状态和生长速率,在一种新型碳培养基中成功培育出该细菌,得出了模型预测与实验数据相一致的结果。

    Hoffmann采用微分方程理论,研究了由IκB、IKK和NF-κB组成的哺乳动物NF-κB信号转导系统,分析了IkB 的合成和降解平衡对NF-κB状态的控制。他们发现NF-κB的活化可上调IκBα的表达,后者是NF-κB的天然抑制因子,并阐述了IκB的三种异构重整体在系统中分别起的作用。可见,利用确定性模型整合实验数据,有助于预测网络体系不同组成单元在接受外界刺激和干扰时出现的震荡(oscillatory)现象。Schoeberl 等同样采用这种方法建立了表皮生长因子信号通路,研究了表皮生长因子受体诱发MAPK级联反应的信号途径。这是首个细胞信号网络的大型动态模型,该模型利用早期实验的测量手段作为研究参数,对信号转导动力学作出预测,其结果在后续实验中获得证实。

系统生物学的下一个十年

    随着系统生物学的不断发展,越来越多的研究为人们提供了原理和预测、关联与因果之间关联的实验室证据。检测手段的进步使多参数、大规模实验成为可能,同时加速了相关性研究与因果关系研究的融合过程。经过基因测序的生物种类不断增多,人类改造基因能力也迅速提高,推动人们对“进化树”(phylogenetic tree)上不同种系生物间进行深入研究和系统对比,加深了对生物网络功能及进化的机械论特征的理解和认识。实验室技术与计算技术的整合助力于早期系统生物学家的传统逻辑理论的验证并促进其向多样化发展。这些成果也推动人类向系统生物学的核心问题——“生命是什么?”不断迈进。

(作者:方笋)

Copyright 1994-2015 Cinkate.com.cn All Rights Reserved 沪ICP备10014127号-5