单细胞分析解密细胞的神秘生活

Aug 11, 2020 No Comments

有了快速成熟的单细胞分析工具箱，科学家正在把多层次的组数据组合在一起，以解析丰富的细胞特征和功能。

经过几代人粗略的研究，生物学家已经接受了这样一个简单事实：每个细胞都有自己丰富而复杂的内部生命。过去的研究使用相对宽泛的术语，根据细胞的物理特征或少量的蛋白质标记对细胞类型进行分类，而如今强大的多组学分析技术在尺度上突破了所能理解的极限。
斯坦福大学（Stanford University）的研究人员William Greenleaf在研究染色质如何影响各种组织的基因活动时遇到了组织分辨率的问题。他指出，很明显，一个组织中肯定存在着大量的细胞异质性。如果你试图把彼此之间差异非常大的不同细胞解释成一个整体，你很快就会搞混。因此，他和其他许多人开始采用新兴技术，这些技术允许从单细胞水平上探索基因组、转录组、蛋白质组和表观基因组等问题。
随后，他们继续往前迈进。这些生物信息层每一层都代表着一个更大的故事中的不同角色，以一种无法从任何单一元素中区分出来的方式相互影响。对这种相互连接的认识推动了单细胞“多模态组学”策略领域中引人注目的创新的出现，例如，揭示基因组序列或甲基化模式的变化如何与同一细胞中的基因表达相关，或转录组活性如何与各种蛋白质的产生相关。纽约基因组中心（New York Genome Center, NYGC）的研究员Rahul Satija表示，通过从多个层次来了解细胞的特性，可以产生巨大的信息量。
将单细胞组学工具结合起来绝非易事，需要审慎的实验改进和复杂的计算工具——其中许多仍处于开发的早期阶段。但这些多管齐下的方法也有望为研究者带来重要的信息：如细胞内部生态系统如何形成其生物功能，以及在健康和疾病期间细胞内的相互作用有何改变。欧洲生物信息学研究所（European Bioinformatics Institute）的Oliver Stegle指出，我们可以开始理解哪些因素之间存在因果关系，以及这些因素是如何联系在一起的。到目前为止，我们已经获得了很多有趣的发现，他认为未来我们还能得到更多发现。

多组学生物学

对于大多数多组学方法，转录组数据是其它生物数据的“通用货币”。这项关于单细胞RNA测序（RNA-seq）的基础性研究发表于10年前，如今，由于10X Genomics、Fluidigm、BD Biosciences和Bio-Rad等公司提供的商业仪器和试剂盒，这项技术既成熟又广泛适用。Satija表示，在某些方面，RNA一直是最容易测量的东西之一，他们感兴趣的分子有这个共同的多聚(A)尾，所以他们可以在一个单独的实验中捕获它们，它们有一个非常高的动态范围。因此，转录组为细胞内发生的生物活动提供了一个丰富而动态的晴雨表，它已经成为区分细胞类型和细胞状态的一个强有力的工具，而这些类型和状态仅凭基本相同的基因组信息是无法区分的。
通过平行观察基因组和转录组，人们可以开始理解影响转录组的一些潜在力量。韦尔科姆基金会桑格研究所（Wellcome Sanger Institute）和鲁汶大学（University of Leuven）的Thierry Voet指出，基因组序列揭示已经获得的突变，而转录组序列允许人们挖掘已经获得这些突变的细胞类型和状态。Voet等人在2015年开发了最早的单细胞多组学分析方法之一。他们的G&T-seq方法需要分离和溶解单个细胞，然后使用寡核苷酸偶联磁珠分离出聚腺苷酸mRNA进行转录组分析，同时保留DNA进行平行全基因组扩增和测序。使用这种方法，Voet等人已经表明，他们可以解读基因拷贝数改变、融合基因、基因组重排和单核苷酸基因变异等因素对基因表达量的影响。

Voet、Stegle和他们的合作者Wolf Reik和Gavin Kelsey随后开发了一个类似的多模态方法，名为scM&T-seq。在测序前，他们先对分离的染色体DNA进行亚硫酸氢盐处理，scM&T-seq能揭示甲基修饰存在于调控或基因序列中，可能促进或抑制表达。通过将这一技术应用于小鼠胚胎干细胞，研究人员能够调查表观遗传环境如何影响和调控细胞的活动：是否保持多潜能性或开始分化。Stegle提醒，在全基因组范围内，DNA甲基化的丢失和新增是一个动态过程，这些都有明确的调控意义的，目前我们已经知道DNA甲基化的变化可以推动细胞谱系特化。
染色质的结构和组织也可以通过隐藏或暴露那些驱动基因表达的转录因子的结合位点，从而显著影响转录。为了识别这些暴露的序列，Greenleaf等人开发了ATAC-seq分析的单细胞版本，该方法使用转座子将DNA序列引入染色体DNA，这种整合事件只能发生在“开放”染色质的暴露区域。这些转座序列包含了使它们能够扩增和测序的适配器，从而在单个细胞中产生一个粗略的染色质全基因组图谱。
最近开发的几种方法都可以通过相同的单个细胞生成ATAC-seq和RNA-seq数据。依靠复杂的DNA条码技术，加州大学（University of California）圣地亚哥分校的Kun Zhang团队开发的SNARE-seq和华盛顿大学（University of Washington）的研究人员Col Trapnell开发的sci-CAR能够在一次实验中，实现将成千上万的单细胞中的染色体和转录组测序数据进行配对。Zhang指出，他们可以识别活跃的转录因子，这些因子不仅被表达，而且与基因组的特定位置结合，并调节下游基因，这使得他的团队开始重建推动复杂的发育过程的基因表达级联，如人类大脑中少突胶质细胞的成熟。

通用语言

染色体特征——无论是基因组还是表观基因组——都是与转录组数据进行配对的自然选择，因为RNA很容易被翻译成易于测序的DNA片段。但通过巧妙的实验设计，细胞的其它特征都可以被翻译成同样的通用语言。Satija认为，如果你能找出DNA条形码的方法，它就能和转录组一起以单细胞分辨率进行测量。例如，他和其他人已经证明，DNA标记的抗体可以与转录组一起用来分析大量蛋白质。
许多单细胞研究已经使用基本的蛋白质分类作为多组学分析的前置步骤。例如，荧光激活细胞分选技术（fluorescence-activated cell sorting, FACS）可以基于少量膜蛋白的存在或不存在来定位感兴趣的细胞亚群，但这对于全面的细胞分析是不够的。在Satija的案例中，他的团队因为无法仅根据FACS和转录组数据来对T细胞进行分类而感到沮丧。Satija 表示，由于T细胞非常小、RNA含量低，所以转录组数据质量通常很差，但即便如此，他们知道，基于T细胞的表面蛋白，它们是非常多样化和具有异质性的。
其中一种解决方案是Satija与NYGC的Peter Smibert等人合作开发的CITE-seq，该技术使用DNA标记抗体在单个细胞上同时标记多种膜蛋白。这些条形码是聚腺苷酸化的，因此可以与同一细胞的mRNA一起被捕获，并与转录组一起进行定量测序。虽然实现的多路复用水平远不及转录组分析，但Satija、Smibert和许多其他研究人员现在都选择将CITE-seq纳入他们的工作流，因为使用该技术，在一个实验中能分析超过200种蛋白，而一个典型的流式细胞仪实验只能分析5-10种蛋白。例如，Greenleaf等人一直在使用CITE-seq和RNA-seq的组合来建立健康血细胞前体和白血病细胞的多组学图谱，然后将这些图谱与单细胞ATAC-seq实验的数据整合起来，以绘制染色质开放性。
基于CRISPR – Cas9的基因组编辑也已经成为多模态单细胞分析工具箱中的一个强大组件，这使得研究人员可以引入广泛的基因组操作，然后与单细胞RNA-seq数据一起开展检测和破译工作。这使得实验能够透过表象，真正探索因果关系。在其中一种方法中，Shendure实验室生成了一个针对人类基因组中近6000种不同增强子的向导RNA文库。他们通过CRISPR技术，用这些向导RNA干扰不同的调节序列组合，并使用单细胞RNA-seq监测每组目标干扰的后果。Trapnell参与了这项研究，他指出，最令人惊讶的是，你并没有发现很多基因有显著的影响。可能有很多非编码元素看起来像是真正的增强子，但不会产生太大的影响。同样，Smibert和Satija等人也将CRISPR扰动纳入了他们对T细胞和B细胞功能的多模态研究中，他们同时使用了CITE-seq和RNA-seq来观察靶向基因破坏的影响。

来自Smibert、Satija等人的ECCITE-seq方法捕获了包括基因表达（GEX）、T细胞受体（TCR）和B细胞受体（BCR）序列在内的多模态信息，以及来自单个免疫细胞的蛋白表达。

技术间的冲突

无论单个技术有多健壮或多成熟，让多种技术很好地协同工作都是一个挑战。一些简单的小问题，如缓冲液不匹配或温度偏离目标，都可能会破坏整合多组学分析的努力，导致无数小时的试错，以找到最佳平衡的方法。Zhang指出，在染色质中保存蛋白质-DNA相互作用的条件并不完全适合用于保存RNA的完整性，例如，保存RNA的最佳方法是去除所有的镁离子和钾离子，因为这些离子可能导致RNA水解，但包裹DNA的蛋白质需要一定的离子强度，否则它们会分解。他的团队用了两年多才克服了这些困难，在SNARE-seq上取得了成功。在某些情况下，这些方法是根本不相容的，不可能在一个单一的反应体积中进行。Trapnell提醒，由于你可能无法在相同的细胞中进行一系列的分子分析步骤，所以你可能不得不在某一时刻分离裂解物，然后并行开展实验。
不同的实验也会产生不同的需求。虽然许多单细胞研究都集中在血液和免疫细胞上，因为它们很容易获得并彼此分离，但Zhang对研究来自大脑和其它器官的人体组织样本很感兴趣。他表示，这些组织完全整合并连接在一起，以至于你不能用酶来进行简单的解离。作为一种变通方法，他的团队开发出了一种获取完整细胞核作为整个细胞的替代物的方法。但是由于mRNA通常在转录和加工后进入细胞质，Zhang的团队需要进行额外的实验来确认细胞核转录内容是否足以代表细胞转录组。他指出，关键信息是，至少在对单细胞进行分类时，单核RNA测序或多或少相当于单核全细胞RNA测序。
从积极的一面看，这些在多组学实验设计方面的开拓性努力正在让位于更精简的实验设计——这些新型的实验设计更容易被更大的研究社区所接受。Trapnell指出，当你做一个多组学试验时，来自多个方法的所有缺点都会叠加起来。但是，解决这些瓶颈和故障模式的过程会导致更强大和可重复的实验，从而减少最终用户的负担。Trapnell还表示，其中一些方法涉及长时间的工作。即使是一些简单的事情，比如在一些比较好的节点冻结你的中间步骤，并‘保存中间过程’，对于那些重复该实验的人来说都是非常重要的，并允许你做更有效地工作。而且，重要的是，这些单细胞组学技术中有几项已经获得了公司的许可，用于可重复的、基于kit的检测。例如，10X Genomics现在提供了一个用于进行单细胞ATAC-seq实验的试剂盒，而抗体制造商BioLegend已将CITE-seq商业化，并提供了数百个DNA条形码抗体用于此类化验。
得益于RNA-seq的商业硬件的进步，现在研究者可以在每个实验中进行10,000多个细胞的常规分析，但吞吐量仍然是第一代多组学单细胞技术的严重限制，这通常需要在实验设计方面定制解决方案。Voet表示，他们开始在试管中开发G&T-seq方法，并手工分离DNA和RNA。随后，他的团队转向了一种更复杂的工作流程，这种工作流程基于多孔板和液体处理机器人，这使得他们可以扩展到每周大约分析1,000个细胞。其中一些多组学技术，如CITE-seq，也可以直接纳入现有的单细胞RNA-seq高通量工作流程，如10X基因组平台。
该领域的许多公司现在正转向一种标签策略，这种策略可以将吞吐量提高10倍，甚至100倍。条形码是大多数单细胞多组学实验的基础，它使研究人员能够将不同的数据层（例如转录组和甲基化组）匹配到原来的细胞。Shendure的团队与测序公司Illumina合作开发了一种“组合索引”条形码技术，无需昂贵的设备即可显著提高实验吞吐量。本质上，该系统需要将细胞或细胞核样本在多孔板中分成许多小批，并引入条形码。然后，样本被汇集起来，重新分配到另一个多孔板中，并进行第二次条形码编码，这种方法能有效地确保每个单独的细胞都能收到一个独特的识别标签组合。
Satija表示，组合条形码将最终使我们能够非常常规地分析数百万乃至数十亿的细胞。然而，这种激增的产量也导致了成本的膨胀——例如，Stegle指出，在他们的scM&T-seq技术中，每个细胞产生表观遗传数据的成本大约是10美元。因此，他的团队通常使用RNA-seq作为一个低通滤波器，对感兴趣的子集进行定位，然后通过多组学方法对较少的细胞进行分析。这种增加的吞吐量也造成了计算上的困难。例如，德国亥姆霍兹联合会（Helmholtz Zentrum München）的Maria Colome-Tatche指出，来自高通量单细胞ATAC-seq的数据很快就超出了为单细胞RNA-seq设计的算法的运算能力。每个人最初都认为，即使细胞数量持续增加，基因数量也不会增加，因此并不会大幅增加计算负担。她还指出，但现在我们的算法需要处理50万个ATAC-seq峰值，而不是20,000个基因。

模式识别

更一般地说，多组学单细胞数据的分析仍然是一个棘手的问题。研究人员可以从各种各样的计算工具中选择在单细胞尺度上分析基因组、转录组和表观基因组，但这些实验仍然比基于大量组织的分析更具挑战性。Colomé-Tatché认为，单细胞ATAC-seq和RNA-seq的最大的问题是，当你得到一个零计数，你不知道这是因为基因没有表达或染色质关闭，或只是你没有检测到它。同时，你没有阴性对照。这个问题在多组学实验中进一步加剧，特别是在方法中，单细胞样本被进一步细分，以便在不同的试验中进行并行分析。Stegle表示，如果能同时分析同一细胞的两份裂解物，我们只能研究这两层次的数据是如何联系在一起的，对于每个细胞，我们得到的信息很不完整，我们必须填补空白。
不同的测定方法也引入了不同的噪声来源和批到批的可变性，这些问题在单细胞数据中同样突出。例如，细胞在细胞周期的不同阶段过渡——或停滞——可能会歪曲染色质或甲基化组分析的数据，而且转录组动态性大，即使是实验前处理引起的短暂扰动也会影响mRNA群体。对这些混杂因素的认识为研究人员提供了潜在的控制策略。Greenleaf表示，如果你知道存在这种应激反应，而且可能是即时的早期基因激活，也许你就可以识别出一个低维度空间，你可以利用它进行有原则的批量校正。但Stegle也注意到，在多组学实验中，去除与化验相关的生物效应可能特别复杂：例如，表观基因组中未预料到的干扰将对转录组和蛋白质组产生明显的后续影响。
迄今为止，在整合多组学信息方面的大量工作集中在对等效细胞样本的并行实验的计算分析上：例如，ATAC-seq和RNA-seq实验是在来自同一供体的两个不同的免疫细胞上进行的。即使这些数据不能被逐个细胞地直接比较，仍然可以整合这些信息层来对细胞类型和状态进行分类。有几种算法使用一种名为典型相关分析（canonical correlation analysis, CCA）的统计技术来检测这些数据中的特征组合，这些特征在多个数据集中表现出类似的模式，因此可能代表不同的细胞子集。例如，Satija团队的Seurat软件使用典型相关分析（canonical correlation analysis, CCA）来识别来自不同实验的数据集中重复出现的细胞类型和状态模式。Satija指出，它可以让你获得来自不同细胞的RNA-seq或ATAC-seq数据集，这些数据来自同一种潜在的生物组织，并且可以协调这些测量数据。Seurat生成的分类结果可用于根据在数据中检测到的重叠簇“匹配”转录组和表观遗传特征，并直接整合这些不同的组学层。
虽然现在出现了一些能够直接执行后一种类型的分析的工具，但是最终的分类能为解释从同一细胞收集的多组学数据提供诸多信息。例如，Stegle等人证明了他们的“多组学因素分析”软件可以用来分析来自单细胞scM&T-seq实验的数据。Stegle表示，它使我们能够理解不同的因素是如何共同变化并结合在一起的，以及哪些变化是特定于一个数据层，但不会发生在另一个数据层。然而，研究人员还在研究如何最好地利用这些不同的数据集，从而得出有意义的生物学结论。Colomé-Tatché指出，很容易找到一些其实并不存在的分子事件之间的联系。她提醒，如果我们观察ATAC-seq和RNA-seq信号的基因组范围，就会发现它们之间存在一种相关性，即越开放，表达就越多。但有很多基因是开放的，不一定表达，当你试图合并数据集时，就很难摆脱这些假阳性假设。

内部视角

目前，这些技术的大部分工作都是围绕解剖复杂组织的功能异质性。例如，哈佛医学院（Harvard Medical School）的Soumya团队正在结合蛋白质组学、转录组学和其它数据，来对不同的免疫细胞亚型进行功能分类。Raychaudhuri 指出，人们喜欢谈论的典型免疫表型都是由表面标记抗体定义的，但是结合这些数据和RNA，他们能够进一步分析这些群体——例如，在最近的一项研究中，他们发现了3个CD4⁺和3个CD8⁺ T细胞亚群。不出所料，许多开发这些方法的实验室也参与了人类细胞图谱的研究，这是一项多国合作的工作，旨在根据细胞的独特分子特征，为细胞类型的精细分类汇集一个全面的指南。
这些发现可能也具有直接的临床意义。Trapnell表示，我们根本不知道导致大量疾病的主要细胞类型是什么。Zhang的研究小组对某些等位基因为什么会导致特定组织和细胞类型的疾病，而不是其它类型的疾病很感兴趣。在他们对多组学单细胞分析的早期尝试中，他的团队通过对健康组织和神经疾病患者的脑细胞进行平行转录组和染色体可及性分析，证明了解决这些问题的可行性。Zhang表示，对于自闭症谱系障碍相关的变异，我们看到的信号主要来自神经元，而对于阿尔茨海默病的风险等位基因，主要的信号来自小胶质细胞，而来自神经元的信号很少。Raychaudhuri的小组同样使用多组学技术来分析不同免疫细胞类型在类风湿关节炎和其它自身免疫性疾病的发生和发展过程中起到的作用。
随着研究人员对这些不同层次的生物信息越来越熟悉，未来应该能重建许多分子事件的因果关系，这些分子事件目前仍是细胞内的“黑匣子”。Greenleaf提醒，这些工具非常令人兴奋，因为它们将为我们提供关于染色质如何影响基因表达、基因表达如何影响染色质，以及蛋白质水平如何影响染色质的深入细致的理解。理想情况下，这将帮助我们理解整个细胞是如何运作的。

原文检索：
Michael Eisenstein. (2020) The secret life of cells. Nature Methods, 17:7-10.
张洁/编译

新闻特写, 热点

生命奥秘

单细胞分析解密细胞的神秘生活

多组学生物学

通用语言

技术间的冲突

模式识别

内部视角

Leave a Reply

热点 · 最新文章

最新评论

About

Special

Social