写在前面

我于25日在清华大学参与了单细胞基因组学会议,现场来了Aviv Regev等领域大牛,对于Aviv的talk我比较感兴趣,也将她介绍自己工作的前三十分钟内容记录了下来,结合自己笔记也看了她的文献,我想结合自己语言以及Aviv的talk的内容详细的阐述她近期的工作,也为各位在开展单细胞组学分析项目一点新的启发。


单细胞测序带给我们对组学在细胞尺度上功能的理解,在过去几年取得了众多前沿的突破,对细胞不同方面,包括不同空间,不同时间的理解,刻画了单细胞的多组学图谱,对我们理解复杂性状的形成,胚胎发育,复杂疾病的耐药机制等等领域有了更为深刻的理解。这些大量的解释工作以及科学上的理解总的来说,一个重要的问题在于如何利用这种图谱(Atlas)去解释和理解疾病。我们关心的主要有以下几个问题。

Where do disease risk genes act?

Which cells are disrupted?

Which cell programs are changed?

Which communications are affected?

What is the effect of drug?

为了理解图谱是如何试图解决以上几个问题,我的第一部分将介绍一种特定的复杂疾病——溃疡性结肠炎(ulcerative colitis)去理解其细胞构造(cellular architecture,注,这里的cellular architecture更应该理解为是细胞层面各个组学信息的集合,而不能简单理解为是细胞的结构)。我们在过去对癌症的研究中也开展了类似的工作,而这项工作将说明我们的图谱可以将这些分析带入更多的复杂疾病的研究中。同时,我的第二部分将基於单细胞基因组的基础上,进一步介绍一些我们需要的计算工具,将我们对复杂疾病的理解进入一个更高解析度的领域(higher resolution field),第三部分则是介绍目前人类细胞图谱计划的进展(这里我将给出Aviv talk的前两部分内容,因为比较核心,第三部分是介绍HCA一些计划的内容,这里不做展开)。

Understanding the basis and treatment of complex genetic disease

溃疡性结肠炎(UC)一般多发于儿童群体,对于这种疾病的研究现代生物学和人类基因组已经有了很多进展,但在另一方面,我们对诱导这种疾病发生的遗传机制,以及后续其潜在病变的机理需要更进一步的研究。全基因组关联测序的研究已经提供了UC关联的200个可能关联的基因座位点信息,同时Huang等人进一步精细定位出94个关联基因座(Huang et al,Nature 2017),但我们对其理解不能仅局限于基因组信息,对其更多分子机制的研究需要更进一步挖掘,意味著我们只知道gene list,但是这些基因对细胞的行为影响仍然是未知的。同时,虽然在过去药物治疗的进展有了显著突破(Anti-TNF,抗肿瘤坏死因子,关于Anti-TNF在UC上治疗的现状可以看这个链接:special.medlive.cn/spec),但部分UC患者会对其产生一定的耐药性,甚至在每次施药后表现的更为严重。

为了对其耐药机制和这些基因的具体功能进行进一步的分析,我们构建了基于正常和UC患者的结肠粘膜单细胞图谱。我们分析了30个个体,12个个体是健康的,18个个体是患病的。从健康的个体中,为了重复性我们提取了两个位置的活检样本,在UC患者中在有炎症(inflamed)和没有炎症(non-inflamed)两个位置中分别提取一个活检样本,(值得注意的是,其中没有炎症的位置可能没有炎症历史,但也有可能是痊愈的部位)。我们共分析366650个细胞,大多数我所展示的细胞类型都来自于17个用于作为训练集的个体(10个样本来自于正常,7个样本来自于UC),通过图聚类演算法(graph-clustering),成功找到51种细胞亚群,其中15种属于上皮细胞,23种属于免疫细胞以及13种属于间质细胞亚群。每个亚群均有正常,无炎症以及有炎症样本,且成比例分布,意味著细胞分型的结果是由样本间表达相似性决定而非不同批次处理或其他原因的影响导致样本的不同。

在上皮细胞中我们可以作出由干细胞开始分化的细胞系树形图(从LGR5+的肠干细胞到成熟的BEST4 +肠细胞和结肠M样细胞),同时我们在免疫细胞中发现B细胞,骨髓细胞以及T细胞等等。但同时,这些亚群中依然少了已知的细胞类型,如粘膜下肠神经元细胞(submucosal enteric neurons),但其分离可能需要单核RNA-Seq技术(single nucleus RNA-Seq),以及浆细胞样树突状细胞(plasmacytoid dendritic cells),可能是由于其在细胞群中出现频率较低,最后还有嗜中性粒细胞,在之前的工作中已经被报道使用scRNA-Seq很难将其分离出来。

UC dramatically remodels cellular composition in the gut

我们还有一些有意思的结果,其中第一个有趣的结果是细胞组分的改变,即不同的类型的细胞亚群的占比在正常,没有炎症和有炎症三种类型样本中存在显著的改变。我们发现人类结肠中细胞比例的重大改变,包括9个上皮细胞亚群,10个免疫亚群和9个基质亚群。我们找到了先前报道的UC患者的细胞比例的变化,例如肠道驻留肥大细胞(gut-resident mast cells ),CD8 + IL-17 + T细胞,调节性T细胞[31]和内皮细胞(endothelial cells )[32]的比例增加。其中,微折叠(Microfold(M)-like cells)类细胞是一种专门的上皮细胞,它将腔内抗原转运到基底外侧袋中的免疫细胞,在健康患者中很少发现,但在有炎症区显著扩大了17倍,后续实验验证了这一结果(in situ)。

各个细胞亚群在三种类型组织的占比变化

M cell的in situ实验验证

尽管大多数成纤维状细胞在健康个体和UC患者中都会出现,一个我们称之为炎症关联的成纤维状细胞(Inflammatory associated fibroblasts)在炎症的组织样本里显著的扩大了189倍。IAFs富集了一些和外周基质重组(matrix remodeling)以及免疫信号(immune signaling)关联的基因,大多数这些基因和结肠炎,癌症等有关。IAFs由WNT2B+以及WNT5B+两种subsets组成,表明它们可能反映出不同的细胞状态,并且可能位于隐窝 - 绒毛轴的多个位置。

IAFs实验验证结果

A new cell state:Inflammatory fibroblasts in the UC colon

我们已经发现在UC结肠处存在一种新的细胞,炎症成纤维状细胞。我之所以强调这种细胞,是因为当我们关注这种新的细胞类型特异表达的一些基因时,我们注意到一种基因称为OSMR。OSMR负责表达制瘤素M受体蛋白,Nathaniel R west等人发表在nature medicine的一项工作显示,相对于健康对照,来自IBD患者的发炎肠组织表达大量细胞因子制瘤素M(OSM)及其受体(OSMR),并且其与组织病理学疾病密切相关。在anti-TNF抗性肠道炎症的动物模型中,OSM的遗传缺失或药理学阻断显著减弱结肠炎。此外,根据对200多名IBD患者的分析,包括来自英夫利昔单抗和戈利木单抗的3期临床试验的两个队列,OSM的高预处理表达与anti-TNF治疗的失败密切相关。因而我们猜测,细胞组分的改变可能关联到耐药性现象。

IAFs细胞特异性表达OSMR(OSM receptor)
Nathaniel R west等人对OSM与IBD患者药物抗性关系的阐述

Could cellular remodeling impact response to therapy?

我们想要知道是否细胞层面的重塑(cellular remodeling)会影响药物反应,在之前的一项针对来自Anti TNF治疗的55个responders 和55个non-responders的bulk RNA表达数据的meta分析已经给出了anti-TNF抗性关联的基因特征(gene signature)和anti-TNF敏感关联的基因特征,利用这些特征给每个细胞类型进行评分,得到他们和anti-TNF抗性或敏感关联的分数。从结果上我们可以看到,在Anti-TNF敏感的分析中,上皮细胞(Epithelial cell)的平均表达水平最高,而在Anti-TNF 抗性的分析中,炎症成纤维状细胞,炎症单核细胞和DC2细胞的平均表达水平最高。

为了进一步了解耐药机制,我们研究了OSM,其治疗前水平可预测临床试验中的耐药性。炎性单核细胞和DC2s表达最高水平的OSM,而IAFs表达OSM II型受体的最高显著水平。这可能意味著耐药性可能是受OSM调节,绕过TNF去激活在IAFs中类似的下游靶点,这个和之前的假设一致,TNF与OSM信号通路共享了很多基因,同时体现了很强的相关性。总之,这些结果表明IAF,炎性单核细胞和DC2激活疾病中的TNF和OSM信号传导,并且可以在TNF阻断期间部分补偿导致抗性。

TNF信号和OSM信号关联基因表达模式存在显著相关

炎症单核细胞以及DC2细胞特异性表达OSM

Inferring functional cell-cell interactions from variation across individuals

之前的分析,我们发现炎症关联成纤维状细胞在有炎症样本中占比有显著提升,那么是否有可能这种细胞占比的改变是受炎症单核细胞的影响,即我们在解释某种细胞A的占比的改变时(这种细胞表达receptor),是因为由细胞B产生的配体浓度的变化。更进一步说,我们假设观察到的细胞组成和基因表达的变化背后隐含的是在UC的影响下,细胞-细胞相互作用网路的重构。为了评估这种可能性,我们首先在健康,非炎症和炎症组织中,分别将上千个文献支持的受体配体对比对到细胞亚群中去构建一个推定的细胞-细胞互作网路。

三种组织状态不同的细胞互作网路

我们在健康的组织中可以发现细胞网路可以有多个不同分区,而随著疾病带来的基因差异表达,导致这种分区的现象消失,在结肠炎关联的亚群,如炎症单核细胞,IAFs,以及M cell,作为网路的关键枢纽。在健康的粘膜中,互作反应了肠道的稳态,比如DC1细胞和T细胞,内皮细胞,周细胞和神经胶质,以及M细胞和T细胞。相反的,在非炎症组织中互作显著性的富集在上皮细胞与呈纤维状细胞和T细胞。虽然发炎组织显示B和T细胞(通常和几对细胞亚群之间),巨噬细胞和CD8 + IL-17 + T细胞,肠细胞和毛细血管后小静脉之间相互作用的显著重新连接。在这些不同的疾病状态中,结肠炎相关亚群,尤其是炎性单核细胞,IAF,M细胞和Tregs,是网路中最中心的节点。

对于这些细胞类型中介性中心性的衡量(意味著节点起到瓶颈作用的程度)

我们接下来假设UC中细胞比例如IAF,炎性单核细胞,M细胞或CD8 + IL17 + T细胞的变化可以通过其他细胞表达的细胞 - 细胞相互作用基因的变化来解释。为了验证这一猜测,我们提取所有的细胞亚群对,并且测试每对的受体配体,是否配体的表达水平会显著的和其对应的受体所在细胞的细胞占比存在相关性。

因而如下的结果我们可以看到,这些相关性可以用来解释免疫细胞随著疾病发生浸润以及转移,比如在WNT2B+Fos 成纤维状细胞中CNCL12的基因,其负责表达一种趋化因子,是淋巴结构内定位B细胞的关键,用于与抗原和Th细胞相遇。其表达水平和FO B细胞在UC内的增值有关。炎症期间肠细胞对IL-18的上调与表达其受体IL18R1的Tregs比例增加相关。 IL-18信号传导在小鼠中具有多效性,均抑制Th17分化并允许调节性T细胞介导的感知和肠道炎症的控制。同时,OSM在炎症单核细胞中的表达与IAFs的占比存在显著性的相关性(IAFs表达受体,OSMR),可能解释OSM信号可能进一步提高anti-TNF的耐药性通过在UC患者中IAFs细胞的扩增。事实上OSMR在之前的GWAS的研究中已经被推测其可能关联UC。那么我们可以想到,这些GWAS推定的基因是否在不同的细胞类型中存在特异性表达,因为OSMR是在炎症呈纤维状细胞中高表达而OSM是在炎症单核细胞中高表达。

配体表达水平与受体细胞占比的spearman相关性

Most UC-risk genes are cell type specific

GWAS以及精细定位可以确定遗传突变是因果性的关联到疾病风险,但不能确定每种variant的分子,细胞和生理功能。我们对之前找到的345个风险基因进行进一步筛选,建立了一个含有57个和IBD(炎性肠病)相关的基因的集合,将这57个与GWAS相关的风险基因定位到我们的单细胞图谱上揭示了29个富集在特定细胞系中的基因。一些细胞亚群,包括M细胞,肠细胞,DC2细胞和CD8 + IL-17 + T细胞,被富集以表达许多与GWAS相关的风险基因。特别是,M细胞表达几个推定的风险基因,其水平高于其他细胞亚群,包括NR5A2,CCL20和JAK2。发炎组织中M细胞的扩增,疾病期间的跨细胞系相互作用以及风险基因的富集表明M细胞可能在该疾病中发挥未被认识但重要的作用。

GWAS-implicated Genes的特异性表达模式

M cells enriched in UC-induced GWAS genes

We can use cell programs to predict GWAS gene function

我们进一步假设在某个特定细胞亚群中研究表达变化能帮助我们进一步推定IBD风险基因的功能。过去利用表达数据预测功能的方法一般是通过在bulk 组织样本中运用「guilty by association」,但是这种方法不能区分基因表达和细胞组分的改变。因而我们在某个细胞亚群内测定基因表达的协同变化。

利用这种方法,我们可以在所有细胞亚群中构建针对57个GWAS解释的IBD风险基因关联的基因模块,同时为他们注释上推定的生物学功能。例如在健康的肠上皮细胞中,C1orf106富集的最显著的功能为「紧连接」(Tight Junction)以及「黏著连接」(Adherens Junction),C1orf106的功能是未知的,直到我们在最近的研究中发现该基因关联到细胞-细胞连接。而如果我们用所有的细胞,C1orf106关联的功能则只是 Epithlial cell signature。类似的,对基因功能更准确的推定可以利用上述分析推广到其他的例子。

Cell subsets Gene functional Annotation
18年一篇science的工作说明C1orf106的功能(在分析之后)

Iteractive analysis organizes UC GWAS genes into modules

依据上述分析,我们可以将GWAS推定的UC基因依据每个细胞亚群的表达情况比对上特定的细胞亚群,同时在每个细胞类型中建立表达共表达网路,找到基因模块,再找富集到IBD风险基因的模块,分析其功能。这样我们可以将上百个基因定位到少量的表达模块,同时这些模块具有细胞特异性。这些模块依据上述分析找到的10个表达模块,其内部有超过50%的GWAS解释的IBD风险基因,可能反映了疾病中关键的生化通路。比如PRKCB模块在健康的巨噬细胞中含有五种其他风险基因,GPR65,ADCY7,PTGER4,PTPRC 以及SH2B3,并且可能通过cAMP信号通路激活巨噬细胞工作。

10 meta-modules associated with UC

Single cell expression and co-expression helps nominate causal genes in associated regions

为了确定scRNA-Seq数据是否可以帮助从候选基因组中检测出「因果关系」的风险基因,我们首先将所有风险变异分解为若干个特异的区域,每个区域具有多个基因,构成基因集,包括至少一个推定的风险基因,我们称之为该区域的「正确」基因,对于每个候选基因组,我们然后鉴定该基因具有(1)所有细胞亚群和疾病状态的最高平均表达水平; (2)非发炎组织中最大的DE系数; (3)发炎组织中最大的DE系数;或(4)利用模块信息定义风险系数。我们使用这四个标准中的每一个评估了选择「正确」风险基因的概率,并将这些结果与NULL Model进行了比较,其中NULL Model中的基因是从风险区域中随机选择了1000次的结果。我们在克罗恩病(CD)中也做类似的分析,却没有发现后续的标准好于随机筛选,表明UC和CD的独特风险基因在不同的肠道位置或仅在疾病期间有活性。利用这种方法,我们在所有的区域中预测出和UC或IBD关联的风险基因,从结果中我们可以看到scRNA-Seq数据可以辅助提高我们发现疾病关联基因的准确性。

Test:Predict 「known」causal gene for each of 20 risk regions with more than one candidate

Summary:The cellular architecture of UC

Single cell census identified > 50 subsets of cells in the mucosal epithelium

Dramatic remodeling of cellular composition in UC: secretory cell differentiation, expansion of inflammatory monocyes, IAFs, CD8+IL17+ and Treg cells, among others.

Increase in IAFs, inflammatory monocytes and DC2s may underlie anti-TNF resistance, possibly through an OSM-OSMR bypass

GWAS genes are mostly cell type-specific

Variation across cells can help predict their functional modules and pinpoint tha likely causal gene in a multi-gene region.


Part2. Tools to measure, track, infer, and perturb

这也就是为何单细胞数据分析是有用的,它将我们对基因的分析从一堆组织中关系到特定的细胞类型,建立基因到细胞再到生物学通路再到疾病的过程。当然,为了更加复杂,更加准确更加庞大的项目,我们也需要一些工具去支持我们进行分析。当然,对于工具的开发者而言,我们需要关心的问题是哪些,如何开发工具解决这些问题则是核心。

总体而言,我们有三种类型重要的工具需要被进一步开发,第一个是Measurement&tracking,可以帮助我们测定更多的细胞表达以及追踪这些细胞分化的过程等等,第二个是计算工具inference&querying,去帮助我们推定更多的复杂关系,第三个是perturbation&manipulation,去测试我们预测的结果。

从用于测定的工具而言,回到我们一开始的分析,我们虽然通过单细胞测序找到了51种不同的细胞亚群,但是这些亚群中依然少了已知的细胞类型,如粘膜下肠神经元细胞(submucosal enteric neurons),但其分离可能需要单核RNA-Seq技术(single nucleus RNA-Seq),单核RNA-Seq技术在测量神经元细胞的RNA表达情况非常有效。

single nucleus RNA-Seq(Lake BB et al, Science, 2016)

Single cell and spatial genomics

除了单核RNA-Seq技术,我们依然有其他方法检测细胞转录水平,如果说,bulk genomic是fruit smoothie(一种饮料,类似水果奶昔),单细胞基因组(single cell genomics)是水果沙拉,那么空间基因组(spatial genomics)则是水果挞。基因在表达过程中,不仅是其特定的表达水平,其在空间中位置的动态变化都会影响其表达水平和功能。这些是过去所开发的用于空间基因组的工具。但无论是蛋白质还是RNA或其他分子水平,随著通量的上升我们是否有可能将这些基于图像的转录数据整合到一副图像中去,比如我们现在有一些检测表达水平的方法,比如MERFISH,MIBI以及CODEX等,得到了蛋白质或RNA分子的成像数据,当我们需要在有限呈像的结果中得到10,000种不同的蛋白质或者RNA分子的荧光数据是很困难的,比如当我们使用MERFISH进行10,000多种RNA分子的成像,我们可能需要近百轮成像才能达到目的,但是,可以通过压缩感知方法,可以将这10,000多种RNA分子的呈像过程进行「并行化」,最终得到一副图像含有上万种蛋白质或RNA的呈像结果。

压缩感知的意义,在于我们此时测量的不再是每单个基因的表达水平,而是组成基因(composite gene)的表达水平,而这些组成基因相比于原有的基因数量会大大减小,组成基因有点像大多数人都能理解的主成分(但是有区别),它是由多个基因线性组合而成,其本质还是一种降维手段(降维其实是一种很宽泛的说法,甚至将机器学习的基本任务就是在降维)但这种结合是一种随机的组合。

Compressed Measurement of Sparse Module Activity(Brian Cleary et al, 2017)

我们最近开展的工作是将scRNA-Seq与spatial transcriptome结合起来,我们首先获得小鼠中特定组织的单细胞表达数据,接著构建基因表达模块,估计这些模块的表达水平,然而利用这些模块,利用模拟测试找到最优的组合方式,接著利用这种组合方式将spatial transcriptome中对应的基因的RNA荧光数据进行整合,就能在空间上定位基因模块的活性强度,同时还能从整合的图像中复原出每个基因单独的表达模式。

[1] Rewiring of the cellular and inter-cellular landscape of the human colon during ulcerative colitis. biorxiv

[2] Fine-mapping inflammatory bowel disease loci to single-variant resolution[J]. Nature, 2017.

[3] Lake B B , Ai R , Kaeser G E , et al. Neuronal subtypes and diversity revealed by single-nucleus RNA sequencing of the human brain[J]. Science, 2016, 352(6293):1586-1590.

[4] Cleary B , Cong L , Cheung A , et al. Efficient Generation of Transcriptomic Profiles by Random Composite Measurements[J]. Cell, 2017:S009286741731245X.

推荐阅读:

相关文章