自从人类基因组测序工作开展以来,十余年已经过去了,两个独立的研究团队基于质谱分析法绘制了整个人体的蛋白表达图谱。这些工作对其他宏
大的蛋白质组学项目进行了补充,如人类蛋白图谱(Human Protein
Atlas),该项目依赖于抗体染色在细胞和组织中对蛋白质进行精确的定位。再如人类蛋白质组计划(Human Proteome
Project),其同时使用质谱和抗体技术来确定每种蛋白质在生物学和人类疾病中的作用。由人类蛋白质组图谱(the Human Proteome
Map)和ProteomicsDB这两项新研究所产生的资源对整个生物医学科学领域的研究人员来说都非常有价值。
这两份报告总共包括七千
多万质谱数据,每个数据就像是与其匹配的特定蛋白片段的指纹。每一个研究都对多于17000个由不同基因编码的蛋白质进行了鉴定。Kim等人系统检查了
30个不同的人体组织,其中包括7个胚胎组织和6种造血细胞。Wilhelm等人将自己从类似数量的组织中得到的数据与超过1万份公开的原始数据文件相结合,从而获得了一个包含60个人体组织、147个细胞株和13种体液的数据库。被分析的样品包括一些研究最为广泛的组织,如肝脏、心脏和肾脏,以及一直很少受到关注的组织,如滑液和胆囊。
由Wilhelm等人提供的18097种蛋白质为人类蛋白质组中蛋白质的数量建立了新的基线;它们代表着包括在Swiss-Prot数据库中92%的开放阅读框。其余的8%蛋白质则由于多种原因缺失了。作者提出,几百种这类蛋白质在经过消化常用蛋白酶如胰蛋白酶的消化后就不能被质谱分析检测到了。而其他的则可能是假基因,即人类细胞不再表达的进化的副产物。还有一些蛋白质可能只是极端的时空特异性表达产物,并代表着可能最终被蛋白质组学界填满的缺口。
汇聚了多种项目的结果所产生的“大数据”,如DNA基础百科全书(Encyclopedia of DNA Elements, ENCODE),已成
为基因组科学中的一个相当大的挑战。蛋白质组学数据的汇聚产生了其特有的一组障碍,这些由数据量而产生的障碍必须与数据质量和灵敏度的可变性一同被处理。
Wilhelm等人对数据汇总的相关问题,如蛋白质鉴定错误发现率的可扩展性发表了意见。他们提出了几个原因,解释为什么目前估计错误发现率的方法并不能
很好地匹配大数据项目,并强调了发展新的统计方法以应对大型数据集的重要性。他们还系统地评估了几种量化方法,然后决定如何整合不同来源的数据并得出结
论,这使得准确地比较不同的样本成为可能。
Kim的团队和Wilhelm的团队投
入了大量的精力来开发自己数据集的应用潜力。为了在所有组织和细胞表达的蛋白质与更加特异性表达的蛋白质中划定一个“核心”的蛋白质组,Kim等人鉴定了
2350个蛋白质,这些蛋白质存在于每个样本中,并且占大宗蛋白质质量的多数。Wilhelm等人比较了5个最大的人类蛋白质组数据集,包括这项研究内部
划定的27个组织,以确定在细胞的控制和维持过程中起主要作用的10000个~12000个广泛表达的蛋白质。为了研究不同的表达模式,他们从各组织中汇
集了100种最丰富的蛋白质,并且在整个数据集中比较了这组蛋白质的表达。令人惊讶的是,虽然这些蛋白质在大多数样品中都得到鉴定,但它们的丰度变化却多
达5个数量级。这两项研究还探究了蛋白质组的其他特点,如翻译后修饰、同种型特异性表达、蛋白质复合物和翻译水平调控等。
这两个团队确定了从几百个被
认为是非编码RNA分子翻译所得的肽。这种观察的重要性目前尚不清楚,但作者认为其中一些基因产物可能是功能性的,而其他可能代表着生物噪声。一个令人兴
奋的推测是,后者可能代表着随机基因表达产物的进化前缘,也就是说,如果该基因是功能性的,可最终演变成为规范的转录产物。
Kim等人创建并搜查了多个自定义序列数据库,以确定基因组中新的编码区,这些编码区源自于他们发现的许多例子中假基因和替代的开放阅读框。经仔细检查蛋
白末端序列,这两个团队也验证了数以千计的蛋白质翻译起始和终止位点。这些例子清楚地说明了蛋白质组学数据对验证和细化基因组注释的潜在贡献。
Wilhelm等人将ProteomicsDB描述为一种挖掘人类蛋白质组的十分强大的基
于网络的新资源。它在结构上类似于生物定位(BioGPS)基因表达资源,即资源中的任何人类蛋白都可以迅速在数据库的任何样品中利用多重定量方法确定其
表达模式。用户还可以查看该蛋白的肽段,审查所有确定的光谱标记点,并确定该多肽片段是通过什么实验发现的。在这方面,ProteomicsDB提供与
PeptideAtlas项目类似的功能,但其特异性针对人类蛋白质。许多其他激动人心的分析工具同样可用或正与ProteomicsDB一同发展中,开
发诸如用于设计高度选择性靶向质谱测定法从而最大限度地减少来自肽数据库中其它肽段干扰的接口。此外,ProteomicsDB被建成为一个社区数据存储
库,能够容纳大量在未来可用的新数据。
这两个项目展示了质谱技术在
利用大规模实验探寻人类蛋白质组方面的令人难以置信的潜力。当在遗传多样性、疾病状态和环境扰动的情况下进行检查时,蛋白质组可能对人类健康产生深远的影
响。例如,在空间蛋白质表达谱的基础上,我们能够预测哪些器官最容易受到特定蛋白编码突变或靶向治疗副作用的影响。
这项包含了几乎所有的人类蛋白质的定量目录和它们在整个身体中的丰度的组装草图是一项令人钦佩的成就。尽管如此,蛋白质组的动力学和信息丰富的分子结构仍有待探索。我们预计,这一资源将推动科学洞察力的进步,并为今后的人类蛋白质组学研究提供一个强大的平台。
(作者:赵永刚、高石)
参考文献:Nature Biotechnology 2014;32: 752-753