在没有外部刺激的情况下,胚胎干细胞将变成外胚层,这表明“在表观遗传学水平上存在一种细胞命运规范的层次结构”。
一只老鼠从受精卵成长为新生幼鼠大约需要20天。欧洲生物信息研究所的Ricard Argelaguet与他的同事研究了在4.5天到7.5天之间,当干细胞分化为三层时,小鼠胚胎内到底发生了什么:外胚层,发育成神经系统;中胚层,发育成肌肉和骨骼;内胚层,发育成肠道和内脏器官。
通过观察单个细胞中表达的基因,研究人员可以很容易地区分这三层,但他们想要一个更细致的画面。因此,在2019年,研究人员将基因表达数据与其他两个信息源结合起来。首先是甲基化,一种改变基因表达方式的化学修饰。第二个是染色质可及性:染色质是真核细胞核中蛋白质和DNA的复杂复合体,染色质修饰如何影响哪部分DNA可以转录成RNA。两者都是表观遗传学因素,即影响基因表达方式的非遗传因素。
综合以上三个数据源,研究人员发现了一些意想不到的事情:在没有外部刺激的情况下,胚胎干细胞将变成外胚层。“这是论文中最重要的贡献。”Argelaguet说。这表明“在表观遗传学水平上存在一种细胞命运规范的层次结构”。
研究结果解释了几十年前的观察结果,即培养中的胚胎干细胞将优先分化为神经元。Argelaguet说,这是一个新发现,仅仅使用单一类型的数据是不可能得到的。
基因组学爆发
过去10年见证了单细胞基因组学的爆发。单细胞RNA测序(RNA-seq)是分析基因表达最常用的技术。其他方法则详细描述了甲基化、遗传变异、蛋白质丰度和染色质可及性等过程。
现在,研究人员越来越多地在“多组学”实验中结合这些方法以及由此生成的数据层。例如,Argelaguet将基因表达谱、甲基化和染色质可及性结合在一种称为scNMT-seq的技术中。另一种CITE-seq技术用于分析转录和蛋白质丰度。G&T-seq技术可同时捕获基因组DNA和RNA。所有这些技术都旨在获得复杂的生物学见解,这是用任何单一技术无法做到的。
几乎所有的单细胞研究都包含可视化——有时称为t-SNE或UMAP图——将单细胞表示为二维平面上的点。研究这些点如何聚集在一起,有助于研究人员辨别生物结构。但是可视化并不容易创建。
单细胞数据集迅速变得庞大。早在2019年,Argelaguet使用荧光激活细胞分选仪在微滴定板中捕获单个细胞,每周只能分析200~300个细胞。而现在借助微流体平台,他可以处理数千个细胞。由华盛顿大学的基因组科学家Cole Trapnell和Jay Shendure监督的2020人类胎儿基因表达谱包括400万个细胞。基本上是一个包含800亿条目的表格——400万行细胞乘以20 000个基因。
难度升级
Argelaguet说,组合模式只会增加难度。Argelaguet与他的同事用了3个月时间收集数据集,用2年的时间对其进行分析。哈佛大学的表观遗传学专家Jason Buenrostro说,他的团队为一项描述SHARE-seq方法的研究进行的计算用了数周才完成。
在瑞士苏黎世大学研究单细胞肿瘤生物学的Bernd Bodenmiller说,这些额外的细节信息有助于研究者“理解生物学”。他们可以利用现有的数据集,如人类细胞图谱(Human Cell Atlas)及其1 350万个细胞剖面图来实现这一目标。
软件工具
欧洲生物信息研究所的Marioni说,这些信息可以通过三种主要方式进行整合,具体取决于数据集的共同特征(或“锚点”),Marioni已就此主题发表了一篇评论。“横向整合”用于相同类型的数据集,例如两个RNA-seq数据集。在这种情况下,基因起着锚定作用,“因为你在每个细胞群中测量的是同一组基因”,Marioni说。
“垂直整合”涉及从相同细胞收集的数据集,如RNA-seq和染色质可及性。而“对角整合”涉及到对无关细胞群进行的分子测量。Marioni说:“问题是,你将要使用的共同特征是什么?”。垂直整合的一种方法是将染色质可及性位点与其调控的基因相关联,然后根据数据计算可能的基因表达谱。
“所以,基本上,你把它变成了一个水平整合问题,基因再次成为锚。”Marioni说。
Trapnell说,整合数据集就像调整DNA序列。“假设你可以通过一种模式看到的细胞群在另一种模式下是可见的,并且对于大多数细胞或细胞群来说,都会有一对一的映射。”他说,诀窍是将这些集合对齐,这样你就可以确信你看到的任何差异“并不是因为你无法找到相似之处,这是激励大多数序列比对算法的动力所在”。
为了实现这一点,已经开发了几十种工具,其中许多工具被编入GitHub上的awesome-multi-omics和awesome-single-cell列表中。
例如,纽约基因组中心Rahul Satija团队成员、计算生物学家Tim Stuart说,Seurat有效地协调了两个数据集的UMAP可视化,以创建一个“共享的低维”空间。“这使你能够在另一个数据集中找到一个数据集的邻居,反之亦然。”
空间黑客马拉松
对于这样一套快速发展的工具,研究人员很难知道他们应该用什么来回答哪些问题,以及如何去做。为了弥补这些差距,约翰霍普金斯大学的Elana Fertig、哈佛大学陈曾熙公共卫生学院的Aedin Culhane、墨尔本大学的Kim-Anh Lê Cao组织了一次单细胞组学数据整合的虚拟会议。作为2020年6月举行的活动的一部分,组织者提供了3个精心准备的数据集,并要求与会者在一系列“黑客马拉松”(hackathons)中应用他们整合和解释数据的算法和工作流。其中一个是专注于Argelaguet的小鼠胚胎数据集,其他则专注于空间数据整合问题。
“我们很想知道在多组学中应该面临哪些挑战。”Lê Cao说,“我们认为最好能召集该领域的不同专家,看看他们如何在单细胞中进行多组学研究分析。”
传统的单细胞实验以牺牲位置信息为代价,详细描述了数千个分子。空间方法无需分离步骤即可获得分子鉴定。通过对这两种数据类型进行分层,研究人员可以计算分离细胞的可能位置,或者用额外的分子细节充实空间数据集。
“一个细胞如何决定它的命运,将如何发挥作用,受许多因素的共同影响。”Marioni说,“但非常重要的是细胞在胚胎中的物理位置:施加在它身上的机械压力、局部信号环境、胚胎的形状、它在发育过程中的变化。因此,如果我们想更好地了解细胞的命运决定,这些测量是非常有帮助的。
在一项挑战中,研究人员获得了来自小鼠视觉皮层的空间和非空间RNA表达数据集。然后,他们被要求使用在非空间数据中计算的细胞类型分配,来识别空间数据中的细胞类型,其中每个细胞识别的基因较少。第二个挑战是,是否有可能在非空间转录数据中识别细胞位置的基因表达特征。
加拿大麦克马斯特大学的统计学家Prateepa Jeganathan解决了第三个挑战,涉及不同乳腺癌患者的蛋白质丰度数据。Hackathon参与者的任务是整合部分重叠的蛋白质组学数据集,推断不存在空间数据的细胞的位置,使用非空间数据预测空间数据中未测量的蛋白质的表达水平。
Lê Cao说,Hackathon参与者主要是改变现有算法的用途。她的学生们使用了一种称为偏最小二乘法的机器学习方法,这是他们最初为大量基因组数据开发的方法。
Jeganathan利用主题分析(一种她在博士后期间采用的自然语言处理技术)来推断微生物群落在不同环境中的差异。在hackathon中,她再次采用了该方法,以描述跨数据集细胞的空间分布和组成。Culhane认为,这种信息在临床上是有用的,因为肿瘤周围免疫细胞的分布会影响患者对治疗的反应。她说:“细胞的空间定向实际上为患者的生存提供了信息。”
基因调控网络
两种组学数据类型对于确定细胞发育的分子机制特别有用。
单细胞RNA-seq数据识别特定细胞中表达的基因,而染色质可及性分析强调调控区域。通过整合这些因素,研究人员可以识别作用于基因的调控元件、可能控制这些元件的转录因子以及这些因子在何时何地表达。结果形成一个基因调控网络,研究人员可以通过探测来区分细胞命运是如何决定的。
Buenrostro与他的团队应用这一策略来展示在小鼠皮肤细胞分化之前,染色质是如何打开的,或是如何被启动的。然后,他们能够利用细胞的“染色质潜能”来预测单个细胞可能如何分化。Buenrostro解释说,染色质“应该总是指向分化的方向”。他的团队发布了一个名为FigR的软件包来帮助定义这些网络。
华盛顿大学Samantha Morris团队开发的CellOracle软件允许研究人员模拟转录因子抑制或增强对细胞特性的影响。Morris与意大利米兰的研究人员合作,研究特定转录因子如何影响人类胚胎中被称为中等多棘神经元(medium spiny neurons)的脑细胞的发育,而这是用基因工程无法做到的。另外,她的团队已经通过计算修改了大约200个转录因子,以确定那些参与斑马鱼胚胎轴中胚层形成的转录因子。轴中胚层发育成脊索,脊索支撑胚胎身体。
该软件预测,其中一个转录因子noto的缺失不仅会阻止脊索的发育,而且会促进另一个发育结构的生长。“我们能够在这个基因敲除中预测一种新的表型。”Morris说,“然后我们用单细胞RNA-seq进行了实验验证。”
无所不在
随着单细胞多组学领域的加速发展,新工具的出现速度令人眩晕。如果细胞信息可以通过测序获得,单细胞生物学家正在将其纳入他们的实验中。
今年6月,美国和日本的研究人员描述了一种同时捕获三条信息的方法:染色质可及性、细胞表面蛋白质丰度和细胞谱系,最后一条是用线粒体DNA测量的。
该团队最初将这种方法称为ASAP-seq。但在论文修订过程中,10x Genomics公司发布了一种新的微流体试剂盒,以简化从同一细胞收集基因表达和染色质可及性数据的过程,研究人员决定将该试剂盒与ASAP-seq混合,以加上另一层信息:转录。
该团队将其方法命名为DOGMA-seq——这是对“分子生物学中心法则”的一种认同,即DNA转录成RNA,RNA翻译成蛋白质。除此之外,该技术还揭示了骨髓分化过程中的谱系偏差。
斯坦福大学的计算生物学家、该团队成员Caleb Lareau说:“一种新的分析方法作为一种修正实验被引入,这一事实首先说明了单细胞领域发展的速度惊人。”
研究人员只能努力跟上。Buenrostro开玩笑说,这就是发展的速度,他的学生们在争先恐后地弄清楚它如何影响他们的研究时,每一本新出版物都会让他们的思想“内爆”。
Lareau说,他与他的同事们已经预先指定了他们的继任者DOGMA-seq。他们的工作头衔?“厨房测序”(Kitchen-seq),就如:“除了厨房水槽,你怎么能把所有东西都排序?”
参考文献:Perkel JM. Single-cell analysis enters the multiomics age[J]. Nature,2021, 595:614-616.