寫在前面

我於25日在清華大學參與了單細胞基因組學會議,現場來了Aviv Regev等領域大牛,對於Aviv的talk我比較感興趣,也將她介紹自己工作的前三十分鐘內容記錄了下來,結合自己筆記也看了她的文獻,我想結合自己語言以及Aviv的talk的內容詳細的闡述她近期的工作,也為各位在開展單細胞組學分析項目一點新的啟發。


單細胞測序帶給我們對組學在細胞尺度上功能的理解,在過去幾年取得了眾多前沿的突破,對細胞不同方面,包括不同空間,不同時間的理解,刻畫了單細胞的多組學圖譜,對我們理解複雜性狀的形成,胚胎髮育,複雜疾病的耐葯機制等等領域有了更為深刻的理解。這些大量的解釋工作以及科學上的理解總的來說,一個重要的問題在於如何利用這種圖譜(Atlas)去解釋和理解疾病。我們關心的主要有以下幾個問題。

Where do disease risk genes act?

Which cells are disrupted?

Which cell programs are changed?

Which communications are affected?

What is the effect of drug?

為了理解圖譜是如何試圖解決以上幾個問題,我的第一部分將介紹一種特定的複雜疾病——潰瘍性結腸炎(ulcerative colitis)去理解其細胞構造(cellular architecture,注,這裡的cellular architecture更應該理解為是細胞層面各個組學信息的集合,而不能簡單理解為是細胞的結構)。我們在過去對癌症的研究中也開展了類似的工作,而這項工作將說明我們的圖譜可以將這些分析帶入更多的複雜疾病的研究中。同時,我的第二部分將基於單細胞基因組的基礎上,進一步介紹一些我們需要的計算工具,將我們對複雜疾病的理解進入一個更高解析度的領域(higher resolution field),第三部分則是介紹目前人類細胞圖譜計劃的進展(這裡我將給出Aviv talk的前兩部分內容,因為比較核心,第三部分是介紹HCA一些計劃的內容,這裡不做展開)。

Understanding the basis and treatment of complex genetic disease

潰瘍性結腸炎(UC)一般多發於兒童羣體,對於這種疾病的研究現代生物學和人類基因組已經有了很多進展,但在另一方面,我們對誘導這種疾病發生的遺傳機制,以及後續其潛在病變的機理需要更進一步的研究。全基因組關聯測序的研究已經提供了UC關聯的200個可能關聯的基因座位點信息,同時Huang等人進一步精細定位出94個關聯基因座(Huang et al,Nature 2017),但我們對其理解不能僅侷限於基因組信息,對其更多分子機制的研究需要更進一步挖掘,意味著我們只知道gene list,但是這些基因對細胞的行為影響仍然是未知的。同時,雖然在過去藥物治療的進展有了顯著突破(Anti-TNF,抗腫瘤壞死因子,關於Anti-TNF在UC上治療的現狀可以看這個鏈接:special.medlive.cn/spec),但部分UC患者會對其產生一定的耐藥性,甚至在每次施藥後表現的更為嚴重。

為了對其耐葯機制和這些基因的具體功能進行進一步的分析,我們構建了基於正常和UC患者的結腸粘膜單細胞圖譜。我們分析了30個個體,12個個體是健康的,18個個體是患病的。從健康的個體中,為了重複性我們提取了兩個位置的活檢樣本,在UC患者中在有炎症(inflamed)和沒有炎症(non-inflamed)兩個位置中分別提取一個活檢樣本,(值得注意的是,其中沒有炎症的位置可能沒有炎症歷史,但也有可能是痊癒的部位)。我們共分析366650個細胞,大多數我所展示的細胞類型都來自於17個用於作為訓練集的個體(10個樣本來自於正常,7個樣本來自於UC),通過圖聚類演算法(graph-clustering),成功找到51種細胞亞羣,其中15種屬於上皮細胞,23種屬於免疫細胞以及13種屬於間質細胞亞羣。每個亞羣均有正常,無炎症以及有炎症樣本,且成比例分佈,意味著細胞分型的結果是由樣本間表達相似性決定而非不同批次處理或其他原因的影響導致樣本的不同。

在上皮細胞中我們可以作出由幹細胞開始分化的細胞系樹形圖(從LGR5+的腸幹細胞到成熟的BEST4 +腸細胞和結腸M樣細胞),同時我們在免疫細胞中發現B細胞,骨髓細胞以及T細胞等等。但同時,這些亞羣中依然少了已知的細胞類型,如粘膜下腸神經元細胞(submucosal enteric neurons),但其分離可能需要單核RNA-Seq技術(single nucleus RNA-Seq),以及漿細胞樣樹突狀細胞(plasmacytoid dendritic cells),可能是由於其在細胞羣中出現頻率較低,最後還有嗜中性粒細胞,在之前的工作中已經被報道使用scRNA-Seq很難將其分離出來。

UC dramatically remodels cellular composition in the gut

我們還有一些有意思的結果,其中第一個有趣的結果是細胞組分的改變,即不同的類型的細胞亞羣的佔比在正常,沒有炎症和有炎症三種類型樣本中存在顯著的改變。我們發現人類結腸中細胞比例的重大改變,包括9個上皮細胞亞羣,10個免疫亞羣和9個基質亞羣。我們找到了先前報道的UC患者的細胞比例的變化,例如腸道駐留肥大細胞(gut-resident mast cells ),CD8 + IL-17 + T細胞,調節性T細胞[31]和內皮細胞(endothelial cells )[32]的比例增加。其中,微摺疊(Microfold(M)-like cells)類細胞是一種專門的上皮細胞,它將腔內抗原轉運到基底外側袋中的免疫細胞,在健康患者中很少發現,但在有炎症區顯著擴大了17倍,後續實驗驗證了這一結果(in situ)。

各個細胞亞羣在三種類型組織的佔比變化

M cell的in situ實驗驗證

儘管大多數成纖維狀細胞在健康個體和UC患者中都會出現,一個我們稱之為炎症關聯的成纖維狀細胞(Inflammatory associated fibroblasts)在炎症的組織樣本里顯著的擴大了189倍。IAFs富集了一些和外周基質重組(matrix remodeling)以及免疫信號(immune signaling)關聯的基因,大多數這些基因和結腸炎,癌症等有關。IAFs由WNT2B+以及WNT5B+兩種subsets組成,表明它們可能反映出不同的細胞狀態,並且可能位於隱窩 - 絨毛軸的多個位置。

IAFs實驗驗證結果

A new cell state:Inflammatory fibroblasts in the UC colon

我們已經發現在UC結腸處存在一種新的細胞,炎症成纖維狀細胞。我之所以強調這種細胞,是因為當我們關注這種新的細胞類型特異表達的一些基因時,我們注意到一種基因稱為OSMR。OSMR負責表達制瘤素M受體蛋白,Nathaniel R west等人發表在nature medicine的一項工作顯示,相對於健康對照,來自IBD患者的發炎腸組織表達大量細胞因子制瘤素M(OSM)及其受體(OSMR),並且其與組織病理學疾病密切相關。在anti-TNF抗性腸道炎症的動物模型中,OSM的遺傳缺失或藥理學阻斷顯著減弱結腸炎。此外,根據對200多名IBD患者的分析,包括來自英夫利昔單抗和戈利木單抗的3期臨牀試驗的兩個隊列,OSM的高預處理表達與anti-TNF治療的失敗密切相關。因而我們猜測,細胞組分的改變可能關聯到耐藥性現象。

IAFs細胞特異性表達OSMR(OSM receptor)
Nathaniel R west等人對OSM與IBD患者藥物抗性關係的闡述

Could cellular remodeling impact response to therapy?

我們想要知道是否細胞層面的重塑(cellular remodeling)會影響藥物反應,在之前的一項針對來自Anti TNF治療的55個responders 和55個non-responders的bulk RNA表達數據的meta分析已經給出了anti-TNF抗性關聯的基因特徵(gene signature)和anti-TNF敏感關聯的基因特徵,利用這些特徵給每個細胞類型進行評分,得到他們和anti-TNF抗性或敏感關聯的分數。從結果上我們可以看到,在Anti-TNF敏感的分析中,上皮細胞(Epithelial cell)的平均表達水平最高,而在Anti-TNF 抗性的分析中,炎症成纖維狀細胞,炎症單核細胞和DC2細胞的平均表達水平最高。

為了進一步瞭解耐葯機制,我們研究了OSM,其治療前水平可預測臨牀試驗中的耐藥性。炎性單核細胞和DC2s表達最高水平的OSM,而IAFs表達OSM II型受體的最高顯著水平。這可能意味著耐藥性可能是受OSM調節,繞過TNF去激活在IAFs中類似的下游靶點,這個和之前的假設一致,TNF與OSM信號通路共享了很多基因,同時體現了很強的相關性。總之,這些結果表明IAF,炎性單核細胞和DC2激活疾病中的TNF和OSM信號傳導,並且可以在TNF阻斷期間部分補償導致抗性。

TNF信號和OSM信號關聯基因表達模式存在顯著相關

炎症單核細胞以及DC2細胞特異性表達OSM

Inferring functional cell-cell interactions from variation across individuals

之前的分析,我們發現炎症關聯成纖維狀細胞在有炎症樣本中佔比有顯著提升,那麼是否有可能這種細胞佔比的改變是受炎症單核細胞的影響,即我們在解釋某種細胞A的佔比的改變時(這種細胞表達receptor),是因為由細胞B產生的配體濃度的變化。更進一步說,我們假設觀察到的細胞組成和基因表達的變化背後隱含的是在UC的影響下,細胞-細胞相互作用網路的重構。為了評估這種可能性,我們首先在健康,非炎症和炎症組織中,分別將上千個文獻支持的受體配體對比對到細胞亞羣中去構建一個推定的細胞-細胞互作網路。

三種組織狀態不同的細胞互作網路

我們在健康的組織中可以發現細胞網路可以有多個不同分區,而隨著疾病帶來的基因差異表達,導致這種分區的現象消失,在結腸炎關聯的亞羣,如炎症單核細胞,IAFs,以及M cell,作為網路的關鍵樞紐。在健康的粘膜中,互作反應了腸道的穩態,比如DC1細胞和T細胞,內皮細胞,周細胞和神經膠質,以及M細胞和T細胞。相反的,在非炎症組織中互作顯著性的富集在上皮細胞與呈纖維狀細胞和T細胞。雖然發炎組織顯示B和T細胞(通常和幾對細胞亞羣之間),巨噬細胞和CD8 + IL-17 + T細胞,腸細胞和毛細血管後小靜脈之間相互作用的顯著重新連接。在這些不同的疾病狀態中,結腸炎相關亞羣,尤其是炎性單核細胞,IAF,M細胞和Tregs,是網路中最中心的節點。

對於這些細胞類型中介性中心性的衡量(意味著節點起到瓶頸作用的程度)

我們接下來假設UC中細胞比例如IAF,炎性單核細胞,M細胞或CD8 + IL17 + T細胞的變化可以通過其他細胞表達的細胞 - 細胞相互作用基因的變化來解釋。為了驗證這一猜測,我們提取所有的細胞亞羣對,並且測試每對的受體配體,是否配體的表達水平會顯著的和其對應的受體所在細胞的細胞佔比存在相關性。

因而如下的結果我們可以看到,這些相關性可以用來解釋免疫細胞隨著疾病發生浸潤以及轉移,比如在WNT2B+Fos 成纖維狀細胞中CNCL12的基因,其負責表達一種趨化因子,是淋巴結構內定位B細胞的關鍵,用於與抗原和Th細胞相遇。其表達水平和FO B細胞在UC內的增值有關。炎症期間腸細胞對IL-18的上調與表達其受體IL18R1的Tregs比例增加相關。 IL-18信號傳導在小鼠中具有多效性,均抑制Th17分化並允許調節性T細胞介導的感知和腸道炎症的控制。同時,OSM在炎症單核細胞中的表達與IAFs的佔比存在顯著性的相關性(IAFs表達受體,OSMR),可能解釋OSM信號可能進一步提高anti-TNF的耐藥性通過在UC患者中IAFs細胞的擴增。事實上OSMR在之前的GWAS的研究中已經被推測其可能關聯UC。那麼我們可以想到,這些GWAS推定的基因是否在不同的細胞類型中存在特異性表達,因為OSMR是在炎症呈纖維狀細胞中高表達而OSM是在炎症單核細胞中高表達。

配體表達水平與受體細胞佔比的spearman相關性

Most UC-risk genes are cell type specific

GWAS以及精細定位可以確定遺傳突變是因果性的關聯到疾病風險,但不能確定每種variant的分子,細胞和生理功能。我們對之前找到的345個風險基因進行進一步篩選,建立了一個含有57個和IBD(炎性腸病)相關的基因的集合,將這57個與GWAS相關的風險基因定位到我們的單細胞圖譜上揭示了29個富集在特定細胞系中的基因。一些細胞亞羣,包括M細胞,腸細胞,DC2細胞和CD8 + IL-17 + T細胞,被富集以表達許多與GWAS相關的風險基因。特別是,M細胞表達幾個推定的風險基因,其水平高於其他細胞亞羣,包括NR5A2,CCL20和JAK2。發炎組織中M細胞的擴增,疾病期間的跨細胞系相互作用以及風險基因的富集表明M細胞可能在該疾病中發揮未被認識但重要的作用。

GWAS-implicated Genes的特異性表達模式

M cells enriched in UC-induced GWAS genes

We can use cell programs to predict GWAS gene function

我們進一步假設在某個特定細胞亞羣中研究表達變化能幫助我們進一步推定IBD風險基因的功能。過去利用表達數據預測功能的方法一般是通過在bulk 組織樣本中運用「guilty by association」,但是這種方法不能區分基因表達和細胞組分的改變。因而我們在某個細胞亞羣內測定基因表達的協同變化。

利用這種方法,我們可以在所有細胞亞羣中構建針對57個GWAS解釋的IBD風險基因關聯的基因模塊,同時為他們注釋上推定的生物學功能。例如在健康的腸上皮細胞中,C1orf106富集的最顯著的功能為「緊連接」(Tight Junction)以及「黏著連接」(Adherens Junction),C1orf106的功能是未知的,直到我們在最近的研究中發現該基因關聯到細胞-細胞連接。而如果我們用所有的細胞,C1orf106關聯的功能則只是 Epithlial cell signature。類似的,對基因功能更準確的推定可以利用上述分析推廣到其他的例子。

Cell subsets Gene functional Annotation
18年一篇science的工作說明C1orf106的功能(在分析之後)

Iteractive analysis organizes UC GWAS genes into modules

依據上述分析,我們可以將GWAS推定的UC基因依據每個細胞亞羣的表達情況比對上特定的細胞亞羣,同時在每個細胞類型中建立表達共表達網路,找到基因模塊,再找富集到IBD風險基因的模塊,分析其功能。這樣我們可以將上百個基因定位到少量的表達模塊,同時這些模塊具有細胞特異性。這些模塊依據上述分析找到的10個表達模塊,其內部有超過50%的GWAS解釋的IBD風險基因,可能反映了疾病中關鍵的生化通路。比如PRKCB模塊在健康的巨噬細胞中含有五種其他風險基因,GPR65,ADCY7,PTGER4,PTPRC 以及SH2B3,並且可能通過cAMP信號通路激活巨噬細胞工作。

10 meta-modules associated with UC

Single cell expression and co-expression helps nominate causal genes in associated regions

為了確定scRNA-Seq數據是否可以幫助從候選基因組中檢測出「因果關係」的風險基因,我們首先將所有風險變異分解為若干個特異的區域,每個區域具有多個基因,構成基因集,包括至少一個推定的風險基因,我們稱之為該區域的「正確」基因,對於每個候選基因組,我們然後鑒定該基因具有(1)所有細胞亞羣和疾病狀態的最高平均表達水平; (2)非發炎組織中最大的DE係數; (3)發炎組織中最大的DE係數;或(4)利用模塊信息定義風險係數。我們使用這四個標準中的每一個評估了選擇「正確」風險基因的概率,並將這些結果與NULL Model進行了比較,其中NULL Model中的基因是從風險區域中隨機選擇了1000次的結果。我們在克羅恩病(CD)中也做類似的分析,卻沒有發現後續的標準好於隨機篩選,表明UC和CD的獨特風險基因在不同的腸道位置或僅在疾病期間有活性。利用這種方法,我們在所有的區域中預測出和UC或IBD關聯的風險基因,從結果中我們可以看到scRNA-Seq數據可以輔助提高我們發現疾病關聯基因的準確性。

Test:Predict 「known」causal gene for each of 20 risk regions with more than one candidate

Summary:The cellular architecture of UC

Single cell census identified > 50 subsets of cells in the mucosal epithelium

Dramatic remodeling of cellular composition in UC: secretory cell differentiation, expansion of inflammatory monocyes, IAFs, CD8+IL17+ and Treg cells, among others.

Increase in IAFs, inflammatory monocytes and DC2s may underlie anti-TNF resistance, possibly through an OSM-OSMR bypass

GWAS genes are mostly cell type-specific

Variation across cells can help predict their functional modules and pinpoint tha likely causal gene in a multi-gene region.


Part2. Tools to measure, track, infer, and perturb

這也就是為何單細胞數據分析是有用的,它將我們對基因的分析從一堆組織中關係到特定的細胞類型,建立基因到細胞再到生物學通路再到疾病的過程。當然,為了更加複雜,更加準確更加龐大的項目,我們也需要一些工具去支持我們進行分析。當然,對於工具的開發者而言,我們需要關心的問題是哪些,如何開發工具解決這些問題則是核心。

總體而言,我們有三種類型重要的工具需要被進一步開發,第一個是Measurement&tracking,可以幫助我們測定更多的細胞表達以及追蹤這些細胞分化的過程等等,第二個是計算工具inference&querying,去幫助我們推定更多的複雜關係,第三個是perturbation&manipulation,去測試我們預測的結果。

從用於測定的工具而言,回到我們一開始的分析,我們雖然通過單細胞測序找到了51種不同的細胞亞羣,但是這些亞羣中依然少了已知的細胞類型,如粘膜下腸神經元細胞(submucosal enteric neurons),但其分離可能需要單核RNA-Seq技術(single nucleus RNA-Seq),單核RNA-Seq技術在測量神經元細胞的RNA表達情況非常有效。

single nucleus RNA-Seq(Lake BB et al, Science, 2016)

Single cell and spatial genomics

除了單核RNA-Seq技術,我們依然有其他方法檢測細胞轉錄水平,如果說,bulk genomic是fruit smoothie(一種飲料,類似水果奶昔),單細胞基因組(single cell genomics)是水果沙拉,那麼空間基因組(spatial genomics)則是水果撻。基因在表達過程中,不僅是其特定的表達水平,其在空間中位置的動態變化都會影響其表達水平和功能。這些是過去所開發的用於空間基因組的工具。但無論是蛋白質還是RNA或其他分子水平,隨著通量的上升我們是否有可能將這些基於圖像的轉錄數據整合到一副圖像中去,比如我們現在有一些檢測表達水平的方法,比如MERFISH,MIBI以及CODEX等,得到了蛋白質或RNA分子的成像數據,當我們需要在有限呈像的結果中得到10,000種不同的蛋白質或者RNA分子的熒光數據是很困難的,比如當我們使用MERFISH進行10,000多種RNA分子的成像,我們可能需要近百輪成像才能達到目的,但是,可以通過壓縮感知方法,可以將這10,000多種RNA分子的呈像過程進行「並行化」,最終得到一副圖像含有上萬種蛋白質或RNA的呈像結果。

壓縮感知的意義,在於我們此時測量的不再是每單個基因的表達水平,而是組成基因(composite gene)的表達水平,而這些組成基因相比於原有的基因數量會大大減小,組成基因有點像大多數人都能理解的主成分(但是有區別),它是由多個基因線性組合而成,其本質還是一種降維手段(降維其實是一種很寬泛的說法,甚至將機器學習的基本任務就是在降維)但這種結合是一種隨機的組合。

Compressed Measurement of Sparse Module Activity(Brian Cleary et al, 2017)

我們最近開展的工作是將scRNA-Seq與spatial transcriptome結合起來,我們首先獲得小鼠中特定組織的單細胞表達數據,接著構建基因表達模塊,估計這些模塊的表達水平,然而利用這些模塊,利用模擬測試找到最優的組合方式,接著利用這種組合方式將spatial transcriptome中對應的基因的RNA熒光數據進行整合,就能在空間上定位基因模塊的活性強度,同時還能從整合的圖像中復原出每個基因單獨的表達模式。

[1] Rewiring of the cellular and inter-cellular landscape of the human colon during ulcerative colitis. biorxiv

[2] Fine-mapping inflammatory bowel disease loci to single-variant resolution[J]. Nature, 2017.

[3] Lake B B , Ai R , Kaeser G E , et al. Neuronal subtypes and diversity revealed by single-nucleus RNA sequencing of the human brain[J]. Science, 2016, 352(6293):1586-1590.

[4] Cleary B , Cong L , Cheung A , et al. Efficient Generation of Transcriptomic Profiles by Random Composite Measurements[J]. Cell, 2017:S009286741731245X.

推薦閱讀:

相關文章