前不久,我們實驗室歷時八年開發的全基因組 DNA 甲基化檢測新方法 GPS 得以發表,揭示了很多我們不曾設想的規律。開發全新的技術困難重重,個中辛酸難以言表。借著文章發表的契機,我們系統回顧了文章從想法到現實的歷程,以及 GPS 所揭示了重要規律,希望為大家提供一些借鑒,並鼓勵前行者不要氣餒。朝著正確的方向,終將柳暗花明。

全基因組 DNA 甲基化檢測說起來容易做起來難

隨著人類基因組計劃的完成,生命科學研究進入了「後基因組時代」,而表觀遺傳學是「後基因組時代」的重要方向。DNA 甲基化是表觀遺傳學的核心組成部分,對於正常細胞功能維持、胚胎髮育等生命過程至關重要,DNA 甲基化堪稱人類基因組的另外一套密碼。

對一個人的所有細胞來說,每一個細胞的 DNA 幾乎一樣,但每一種組織細胞的表觀基因組卻差異巨大,而且隨著時間的變化而不同,典型的例子就是通過檢測外周血中特定位置的 DNA 甲基化竟然可用來預測一個人年齡。異常 DNA 甲基化已經被證明與人類許多疾病尤其是腫瘤的發生髮展具有密切關係。因此,進行全基因組 DNA 甲基化的精準檢測和分析無疑對探索腫瘤的發生髮展和轉移以及開發新的抗腫瘤策略具有重要意義。然而全基因組 DNA 甲基化測序可以說是表觀遺傳領域公認的「土豪」遊戲,必須「不差錢」。2008 年美國 NIH 啟動了「表觀基因組的路線圖計劃(RoadMap Epigenome Project)」,計劃用 5 年的時間繪製 50 種人類正常組織的表觀基因組圖譜,而預算的經費居然高達 6.6 億美元。你沒有看錯,是 6.6 億美元,平均一種組織細胞的花費大約為 1320 萬美元,如果按當時匯率摺合人民幣接近 1 億人民幣。我們再看看歐洲的「千人表觀基因組計劃(1000 Epigenome Project)」,擬用 10 年時間花費 3900 萬歐元完成 1000 人的表觀基因組圖譜,這個花費也挺嚇人的。

為什麼會花費這麼多錢,因為構成生物體基因組僅僅由 A、T、C、G 四個鹼基構成,當 DNA 被亞硫酸鹽處理後,沒有甲基化的 C 轉變成了 T,構成 DNA 的序列就剩下了 A、T、G 三個鹼基,其複雜度大幅降低,當測序完成後,你就會發現大部分序列沒法與人類參考基因組比對(Map),通俗的講就是「找不到家門」,DNA 甲基化計算無從談起,而確定重複序列區域的 DNA 甲基化狀態更是全基因組 DNA 甲基化檢測者的噩夢。最早的全基因組 DNA 甲基化檢測的 Map 率只有 29%,也就是說你花費了 100 元錢,只有 29 元錢是有用的,那 71 元錢測到的序列因為「無家可歸」而被白白扔掉了。與此同時,人們也意識到那 71 元錢檢測的序列其實是細胞內真實存在的,只是因為技術的限制被人為地忽略掉了。而這種檢測最大的風險也可能是撿了芝麻丟了西瓜,因為那 71% 的真實信息本來也很重要,而你只能用 29% 的DNA甲基化信息得出結論,所得結論的有沒有偏差,相信諸位心裡都有判斷。

但科學的進步是循序漸進的,絲毫不妨礙發高水平的文章,2012 年通過檢測大猩猩和人類各 4 份精子樣本的全基因組 DNA 甲基化也一樣可以登頂 Cell 雜誌。可想而知,全基因組 DNA 甲基化檢測是多少人的夢想,同時你也會覺察到,有錢就可以任性。所以,開發出人人可以負擔的全基因組 DNA 甲基化檢測方法就顯得尤為重要,使全基因組 DNA 甲基化檢測真正從「舊時王謝堂前燕」,進而「飛入尋常百姓家」是許多表觀人的奮鬥目標。

GPS 因「運」而生

2009 年底,我全職回到復旦大學,組建了自己的實驗室,鑒於國際上表觀遺傳學的快速發展,根據已有的研究結果設計自己的課題並不適合我們,追趕別人其實是一件很累的活兒。所以,我對實驗室的研究方向定了一個基本的原則:別人已經做的,我們不做;別人能做的,我們也基本不做。我們要麼就做別人不做的,比如我們的 NamiRNA 激活基因研究;要麼就做別人做不好的,比如全基因組 DNA 甲基化檢測。我們希望讓全基因組 DNA 甲基化不僅精準,而且費用足夠低,讓人人可以做。

GPS 方法開發純屬偶然。有一天,我在尋找線粒體 DNA 的甲基化信息,發現當時居然沒有任何信息可用。儘管我從 2001 年起,在國外一直在從事 DNA 甲基化研究,要知道線粒體 DNA 僅有 16kb 左右,而當時,我們已經進入二代測序時代,如果連一個 16kb 的 DNA 都沒有甲基化信息,那並不是說線粒體 DNA 甲基化不重要,而說明全基因組 DNA 甲基化檢測一定存在什麼問題,而這些問題無疑會阻礙該領域的發展。合理質疑是解決問題的前提,而要解決一個問題,首先要明白導致這個問題的根本原因。好在已經有文獻告訴我們問題的關鍵是什麼,在 Nature MethodNature Review Genetics 有兩篇綜述認為 WGBS 測序最主要的問題是序列比對率低和比對準確性差兩大問題。如果解決了這兩個問題,就很容易打破 DNA 甲基化檢測的瓶頸。

說幹就幹,我在實驗室內下達了開展 DNA 甲基化檢測召集令。首先,我將目前 DNA 甲基化檢測所有方法的優缺點一一羅列,供同學們參考,如果有任何人能夠提出全新的解決方案,實驗室就給予不同程度的獎勵。為了攻克這個難題,同學們想出了各種辦法。最後大家認為既然 DNA 甲基化最主要的問題是比對的問題,我們就將重心放在如何提高比對率和準確性上。我們知道,含有 4 個鹼基的基因組比對沒有問題,我們何不借用雙端測序的優勢,讓雙端測序的一端是基因組原序列,另一端是轉化後表觀序列,那問題不就迎刃而解了。我們將這種全基因組 DNA 甲基化檢測方法命名為 GPS(Guide Positioning Sequencing),即「導航定位測序」,目前已經獲得國內和國際專利。

這個大的策略一定下來,我們需要考慮的是如何實現這一設想。我們想到了 T4 DNA 聚合酶,在反應體系中沒有 dNTP 的情況下,可以發揮 3-5 外切酶的活性,當有反應體系中存在 dNTP 的時候可以發揮 5-3 聚合酶的活性,不過在反應體系中,我們將 dCTP 換成甲基化的 dmCTP 就可以了。這樣一來,所有的 DNA 片段 3』 端在亞硫酸鹽處理後還保持基因組序列,可用來定位;而 5』 端就可以用來計算甲基化了。理論上,這種策略應該沒有問題,我們大約用了一個月的時間證明這種策略沒有問題,可以按照我們的設想 work,從而使複雜的全基因組 DNA 甲基化檢測兩大難題就這樣變成了「無心插柳」,化於無形。

圖 1. 導航定位測序(Guide Positioning Sequencing, GPS)工作原理

做研究的人都知道,一個全新方法的建立,說輕了就是自己和自己過不去,說重了就是自己給自己挖了個坑。要讓一個全新的方法高效工作,談何容易。我們要確定酶的用量,酶切的時間,酶切的溫度,進而對酶的活性進行精準把控。如果把握不好,要麼就將 DNA 全切光了,要麼就切的很短,3』 端無法定位。我還記得在這期間有一段艱難的時刻,我們想了好多辦法,總是無法把握一個精準的度。實驗結果反覆無常,時好時壞,根本無法穩定下來。我們想了各種方法,總是以失敗而告終。我可以說是絞盡腦汁,想的我實在頭疼,剛好復旦大學工會組織職工休假,我就去揚州休息了兩天,回來後接著想,終於將所有實驗條件穩定下來。實驗操作問題解決了,實驗數據的分析又成了大問題,因為沒有現成的軟體可以用。我們只好根據我們的實驗設計,自己編製分析軟體。大約了用了 3 個月的時間,我們編製出第一版的軟體。可是當我們比對測序數據時發現,200G 的數據需要計算機運行 3 周,這確實有點長,一般的實驗室肯定喫不消。後來又編製了一版基於全新分析策略且需藉助超級計算機的計算分析軟體,200G 的數據大約運行 3 天,這解決了數據分析的大問題。但是,我們的本意是開發人人可以做的技術,可又有多少實驗室可以用超算來分析 DNA 甲基化,怎麼辦?我們再次編製了一版全新的軟體,目前在普通計算機上,200G 的數據運行時間為 3 天左右。現在,GPS 的實驗條件和生物信息學分析軟體已經全部優化好了。在 GPS 方法優化過程中,不難看出一個全新方法的產生和成熟確實需要花費很多的心思和精力,好在這些難題都留給了我們自己。我們實驗室的理念是從我們實驗室出去的方法,你按照 protocol 去嘗試,就一定會 work 的很好,大家大可放心使用。

圖 2. 研究論文於 2019 年 1 月 22 日發表在線發表於 Genome Research 上

GPS 優勢想的見,看得見

GPS 檢測全基因組DNA甲基化理論上簡單,操作上易行,其優勢不僅想的見,也看得見:

1)GPS 檢測 DNA 甲基化的精確性:我們從人類參考基因組中隨機生成了 100 萬個 pair-end 讀長並進行相應的改變,以模擬 pair-end 測序結果。由於已知這些片段確切的基因組位置,這樣我們就可以通過 GPS 策略計算它們精確比對的概率,進而評估 GPS 檢測 DNA 甲基化的準確性。如果使用 BSMAP 進行序列比對,其比對率僅為 66.2%,而 GPS 的比對率高達 82.3%,接近於用 Bowtie2 進行基因組的比對率 86.3%。在後續具體的實際測序和分析中,我們用焦磷酸測序實驗也證明 GPS 具有極高的準確性,證明 GPS 具有精準檢測的先天優勢。

2)GPS 具有較高的比對率:在對肝細胞實際檢測中,GPS 比對率為 80.9%,比 WGBS 的比對率高 15~20%,這主要是由於 WGBS 數據的先天的複雜度降低所致。如果這還不足以讓您瞭解 GPS 方法的高效率,我給您一個目前 DNA 甲基化檢測的現狀。在人類參考基因組中 DNA 雙鏈中有 1,170,378,405 個胞嘧啶(C)位點,以及 56,434,896 個 CpG 位點。以目前大家常用的基因晶元檢測方法為例,如 450K 或 850K 晶元能夠檢測到的甲基化位點僅為 45 萬個或 85 萬個,佔到人體基因組全部 CpG 的 0.8 到 1.5% 之間,佔全部胞嘧啶的 0.04% 到 0.07% 左右,而 RRBS 能夠檢測的 CpG 位點大約為 1%,佔全部胞嘧啶的比例大家可以自己算。WGBS 一般情況下能夠覆蓋全部 CpG 位點的 90% 左右,認為可以用來準確評估樣本的 DNA 甲基化狀態。我們來看一下 GPS 的檢測效率,在肝細胞中,GPS 方法覆蓋到了 54,853,393 個 CpG 位點,覆蓋率高達 97%,同時也覆蓋到了 1,123,233,333 胞嘧啶位點,覆蓋率為 96%。從嚴格意義上來講,只有全部確定了人體基因組中每一個胞嘧啶位點的甲基化狀態才能算是繪製了人體細胞的表觀基因組完整圖譜,我們認為 GPS 方法至少幫我們繪製了第一張人類肝細胞的表觀基因組圖譜(也許有讀者有不同意見,我們畢竟沒有覆蓋到 100%,但是我敢肯定,我們最接近這個目標)。

圖 3. GPS 比 WGBS 具有更高的比對率

3)GPS 甲基化檢測成本低:這主要基於 GPS 方法的比對率高,同時 GPS 測序數據比對只要超過 5 層,就能夠比較精準的計算出 DNA 甲基化。而 WGBS 的精準檢測甲基化一般情況下需要超過 30 層。目前 GPS 方法對一個樣本的檢測大約需要 200G 左右的測序數據,在 10X Illumina 測序平臺上大約相當於 2 條 Lane 的測序數據,測序成本大約在 1.5 萬元左右。況且你可以同時獲得了基因組和表觀基因組數據,一舉兩得。

4)GPS 檢測甲基化沒有序列偏好性:通過比較 GPS 測序和人類基因組功能區的分佈情況,很清楚地看到,GPS 檢測到的 DNA 甲基化位點在啟動子區域和功能基因組元件上沒有分佈偏好性。與 WGBS 相比,GPS 對於重複序列、CpG 島以及 GC-rich 區域(如啟動子區域)的檢測具有更高的效率。這些優勢對全基因組的 DNA 甲基化精準檢測非常重要,可以有效避免測序偏差導致結論的不確定性。例如,腫瘤細胞存在全基因組的 DNA 低甲基化現象,而偏偏 WGBS 傾向於檢測 DNA 的高甲基化區域,而依靠 WGBS 來評估腫瘤細胞的全基因組 DNA 甲基化狀態就會高估腫瘤細胞的 DNA 實際的甲基化水平,我們的結果也證明瞭這一點。

圖 4. GPS 在全基因組範圍的覆蓋無偏好性,可覆蓋重複序列和 GC-rich 區域

5)GPS 可以同時檢測表觀基因組和基因組學變異,特別適用於精準檢測等位基因特異性的甲基化(Allele-Specific Methylation, ASM),而 ASM 檢測可以有助於回答許多表觀遺傳調控的關鍵基礎問題。例如,使用相同的數據量,GPS 鑒定了 1820 個 ASM,而 WGBS 只鑒定了 135 個。我們也驗證了 97L 細胞系中的兩個 ASM,它們定位於 CCDC97 TOP1MT 基因,這些區域富含轉錄因子和 DNaseI 高敏感位點。因此, GPS 更適用於研究基因組和表觀基因組之間的交互作用(Crosstalk),而以前這些問題很難研究清楚。

圖 5. 相比於 WGBS,GPS 可以檢測到更多的遺傳變異
圖 6. GPS 可檢測等位基因特異性的甲基化

MeGDP,DNA 甲基化調控「相反相成」

眾所周知,DNA 甲基化與基因表達調控密切相關。基因啟動子區域的高甲基化,基因表達降低,而啟動子區域的低甲基化,則基因表達升高,這種調控規律深入人心。但令人尷尬的是,如果將一種特定組織細胞中所有啟動子區域的甲基化狀態與全部表達基因進行相關分析後,發現二者並沒有顯著相關性,是不是有點讓人不知所措,就像局部的規律性並不能代表整體的規律性一樣。此外,令人大跌眼鏡的是某些基因的啟動子區域高甲基化並不意味著這個基因表達一定降低,也就是說,有些基因啟動子區域的高甲基化,這個基因反而是高表達的,由此看來,DNA 甲基化與基因表達調控並不是我們想像的那麼簡單。後來全基因組 DNA 甲基化的檢測分析發現,基因體的甲基化與啟動子區域正好相反,即基因體的高甲基化與基因的高表達有關,反之亦反。我們的 GPS 檢測分析發現,這種規律也並不總是對的。例如,基因表達 FPKM 超過 20 時,基因體 DNA 甲基化不再與基因表達正相關。結果顯示,FPKM 超過 20 的基因體甲基化程度更低,長度更短,更為保守,而且主要富集在代謝通路上。

圖 7. 基因表達與啟動子區域以及基因體的 DNA 甲基化有關

那麼問題來了,啟動子和基因體 DNA 甲基化為什麼會有截然相反的調控規律,它們之間有麼有內在的聯繫並共同調控基因的表達?能否僅僅通過 DNA 甲基化檢測來精準預測基因的表達情況,而這一點對於評估某些感興趣的基因在特殊樣本(如石蠟樣本)中的表達無疑具有重要意義。

鑒於 GPS 檢測每一個 CpG 位點甲基化的精準性,當我們用基因體和啟動子區域的 DNA 甲基化差值(MeGDP, Methylation of Genebody Difference to Promoter)與基因的表達進行相關性分析時,我們驚喜地發現 MeGDP 與基因表達之間的相關性高達 0.67,提示 MeGDP 可以用來預測基因表達的情況。而如果利用 WGBS 測到的數據進行計算,得到相關係數僅為 0.33。在其他樣本中應用 GPS,我們也能得到類似的結果,而 WGBS 結果則毫無規律性可言。可以這麼說,MeGDP 的發現,並不是我們比別人聰明能幹,而是得益於 GPS 對甲基化的精準檢測。

圖 8. MeGDP、H3K4me3 和 H3K36me3 與基因表達均存在很強相關性

MeGDP,腫瘤免疫新框架和新靶標

你千萬不要小看 MeGDP, 除了用於特殊樣本中基因表達的預測,其重要性遠不至此。大家都知道腫瘤的發生與免疫功能紊亂以及代謝異常密切相關,但表觀遺傳因素在這裡發揮了什麼作用不得而知。在肝癌細胞中,因 MeGDP 降低導致表達下調的基因主要富集在免疫與刺激反應以及代謝途徑相關基因,而且 P 值非常低(做過 GO 分析的人都十分清楚,P 值代表了所富集基因的可信度),由此可見 MeGDP 可以更好地用來研究腫瘤相關基因的表達調控與腫瘤各種生物學行為的關係。

圖 9. 在肝癌細胞中具有更低 MeGDP 且表達下調的基因富集在免疫系統以及代謝通路上

眾所周知,腫瘤發生與免疫系統紊亂有極大的關係,免疫監視系統失衡是腫瘤發生的重要原因。這裡面重要的概念就是腫瘤與免疫監視系統的相互作用(tumor-immune surveillance network)並且包含兩層意思,一個是腫瘤細胞自身,一個是人體的免疫系統,到目前為止腫瘤如何逃避免疫系統還是一個謎。一般的理解,腫瘤與免疫監視系統相互作用的重點是會發在免疫系統上面,也就是腫瘤中的各種淋巴細胞異常,比如最近火熱的免疫治療正是針對這些不作為的免疫細胞。這讓我這個免疫學的外行比較納悶,研究腫瘤免疫,大家居然主要關注的是免疫系統,而不是腫瘤細胞自身;近來有些研究去尋找腫瘤新生抗原如 Neoantigen,理論很高大上,可是實際可應用的並不多。這裡,我認為有必要重新認識並深入理解腫瘤免疫,尤其是從腫瘤細胞自身來重新詮釋腫瘤免疫。站在表觀遺傳的角度,任何細胞都可能是「免疫細胞」,或具有免疫細胞的特性,所以腫瘤細胞自身免疫相關基因的調控也是腫瘤免疫調控的重要組成部分。換一句話說,腫瘤免疫我們不僅要關注免疫系統,更需要關注腫瘤細胞內在的天然免疫系統基因的調控,而腫瘤細胞中內在的免疫相關基因的甲基化異常導致的基因沉默也許是腫瘤免疫逃逸的重要原因。

我們的研究結果表明,由於 MeGDP 導致的甲基化異常,腫瘤細胞中內源性的免疫相關基因被異常甲基化所沉默,導致腫瘤細胞對外界的各種治療或免疫治療沒有反應。據此,我們推測,腫瘤的免疫耐受與免疫系統中的淋巴細胞也許沒有必然的關係,而由腫瘤細胞自身的表觀遺傳學異常這個內因決定。在這個新的腫瘤免疫框架下,尋找預測腫瘤免疫治療的新靶標就不會再「山窮水復疑無路」,而一定會「柳暗花明又一村」。

如果你還不相信這麼複雜的問題,答案竟如此簡單,那麼我們依據該思路對 GPS 測序結果精細分析一定會讓你茅塞頓開。目前 PD-1/PD-L1 抗體治療 80% 腫瘤患者沒有顯著效果,沒有人願意成為這 80% 中的一員。如果患者花費巨資卻發現免疫治療效果有限或無效時,患者的心情可想而知。有人說錢能解決的問題都是最簡單的問題,對腫瘤患者來說,也許最關鍵的問題是時間的問題,因為沒有人耽誤得起。所以,擺在臨牀醫生和廣大患者面前的一個重要且迫切的問題就是找出一個能夠預測 PD-1 治療有效性的標誌物。現在的一些標誌物,比如 PD-L1 的表達量,可是在臨牀的驗證中並不好用。你也許會說腫瘤突變負荷(TMB)不錯,但我要說 TMB 並不是免疫治療特有預測標誌物,也可以預測其他治療方案的效果。總而言之,目前的預測免疫治療的有效標誌物,臨牀醫生不滿意,患者更不滿意。近期 Cell 雜誌報道,在黑色素瘤病人中,免疫監控相關的幹擾素 IFNG 通路基因的突變或拷貝數丟失使得抗-CALA4 反應失效。可惜的是,仔細查看文章發現IFN通路上 60 多個基因突變的概率太低,雖然很有意義,但確實臨牀應用十分有限。怎麼辦,該輪到我們的 MeGDP 粉墨登場了。我們通過對 IFN 通路 60 多個基因的 MeGDP 與基因表達分析發現,MeGDP 異常在肝癌細胞中確實可以導致 IFN 通路中的大多數基因表達下調(圖 10 左中圖),進而可能用於 PD-1 治療效果的預測。如果想進一步破解 PD-1 治療不佳的魔咒,我們認為 DNA 甲基化抑製劑有可能派上用場,而且已有研究證明,5AZA 確實與腫瘤細胞自身的免疫激活有關。我們也發現,在 5-AZA 處理後,免疫相關基因 EDNRBACP5 以及 BST2 都上調大約 2~75 倍(圖 10 右圖)。此外,我們也有理由推測肝癌細胞中的 MeGDP 的異常模式導致的免疫相關基因沉默也許是目前肝癌藥物和其他療法不佳的重要因素。

如果哪位老師願意一起合作研究 MeGDP 與免疫治療的關係,並打算篩選新的免疫治療新靶標,我們將非常高興,大家一起合作做點事。聯繫郵箱:[email protected]

圖 10. 肝癌細胞系中 IFNG 通路基因表達下調;5-AZA 處理後,免疫相關的基因上調。

MBS:DNA 甲基化調控不僅需要高度,更需要廣度

MBS 的發現和定義純屬偶然。MBS 即「Methylation Boundary Shift」 的縮寫,中文的意思是甲基化邊界漂移。談到 DNA 甲基化對基因的調控,我們大多關注 DNA 甲基化高和低,因為這直接決定了基因表達的低與高。然而,當我們將正常肝細胞和肝癌細胞的甲基化測序數據比對到參考基因組上後,我們在 UCSC genome browser 上發現,與正常肝細胞相比,肝癌細胞中以 TSS 為中心的啟動子區域 DNA 低甲基化範圍在大多數情況下總是顯示出更廣闊的「V」字形模式(wider opening)。這是巧合還是規律,我們一時也不能確定。但我們知道,用我們解析度不高的肉眼看到的東西如果是真的,生物信息學分析可能會給我們一個滿意的答案,結果我們毫無懸唸的發現腫瘤細胞中啟動子區域確實存在甲基化邊界的漂移(圖 11 左圖)。

如圖所示,MBS 現象在腫瘤細胞中非常清楚,毫不拖泥帶水,我們自然要問,MBS 在腫瘤細胞中的出現,一定會有重要的生物學功能:

1)MBS 與組蛋白修飾離不得,見不得。與 H3K4me3 離不得,很清楚 MBS 所在區域與 H4K3me3 高度重疊;相反MBS 與 H3K36me3 卻是見不得,因為 MBS 與 H3K36me3 富集是互斥的。

圖 11. 97L 細胞中 MBS、H3K4me3 和 H3K36me3 的分佈

2)MBS 與基因表達有關。我們的結果表明 MBS 向基因體方向的的漂移與基因的高表達密切關聯。MYC 基因就是一個典型的例子,腫瘤細胞中 MYC 基因高表達,但其調控機制五花八門,而我們在這裡清楚地看到 MYC 基因的啟動子區域存在顯著的甲基化邊界漂移,說明 MBS 至少在一定程度上與腫瘤細胞中 MYC 基因的表達上調有關。

圖 12. MBS 對基因表達的調控

既然 MBS 與基因表達有關,那麼 MBS 是否有腫瘤的發生相關呢?通過對肝癌細胞中異常的 MBS 模式及相關基因表達進行分析後發現,這些基因富集在覈糖體和細胞週期相關的通路。作為曾經的血液內科臨牀醫生,我知道白血病細胞與正常造血祖細胞的形態學鑒定,很重要的一條標準就是細胞核中核仁的數量,核仁數量越多,是白血病細胞的可能性就越高,而核仁的增多離不開核糖體相關基因的高表達。如果按照傳統的甲基化調控理論,你會認為 rRNA 基因不受表觀遺傳學調控,因為所有 rRNA 基因的啟動子均是低甲基化。而 MBS 的發現告訴你,DNA 甲基化的邊界漂移居然與腫瘤中 rRNA 的高表達有關,是不是有點腦洞大開的感覺。進一步分析發現,在 60 多個核糖體相關基因中,有 48 個核糖體基因的表達調控與 MBS 相關,而應用 WGBS 只發現了 7 個,再一次印證了 GPS 檢測甲基化的精準性。可以想像,如果甲基化的檢測準確性存疑,甲基化邊界的漂移鑒定就變成了一項不可能完成的任務,或者你比較幸運,偶爾在 WGBS 數據中發現了 MBS,但因為在下一個樣本中沒法重複,也很難得到規律性的結論。我們在兩個乳腺癌細胞系 MCF-10A 以及 MCF-10A-1H 中進行 GPS 測序,同樣發現 MBS 及相似的調控規律,說明 MBS 調控具有普遍性。

MBS:增強子與細胞身份「得」與「失」

人類基因組中有數百萬的增強子元件,其中 H3K27ac 是活性增強子的標籤。既然啟動子區域存在明顯的 MBS,我們自然會想到,作為與啟動子類似的順式調控元件,增強子是否也受到 MBS 的調控。我們的答案是「Yes」。在肝細胞和肝癌細胞中,H3K27ac 的峯寬也與 MBS 高度重疊(圖 13 左),提示 MBS 與 H3K27ac 具有相關性,進而對基因表達產生影響。與正常肝細胞相比,肝癌細胞的 MBS 發生了顯著的變化,進而引起增強子活性的選擇性丟失或重新獲得,這些增強子變化可導致相應的基因表達發生變化。我們驚訝地看到許多基因與細胞的身份相關,如肺發育、免疫細胞激活或其他組織特異性的基因。我們有理由相信,正是由於 MBS 異常模式導致腫瘤細胞增強子邊界和活性變化,進而促使組織特異性基因表達上調或下調,引起細胞身份的「得」與「失」,而這一切也許在腫瘤發生和轉移過程中與腫瘤細胞特性的形成密切相關。

圖 13. 增強子與 MBS 具有一致性

腫瘤轉移,也許就是腫瘤細胞換了「馬甲」

轉移是晚期腫瘤的顯著特徵,關於腫瘤轉移的假說層出不窮,主要包含腫瘤幹細胞理論、腫瘤微環境理論、上皮-間質轉化理論、「種子-土壤」學說等 10 種。但經驗告訴我們,對於絕大多數腫瘤而言,一旦轉移,留給患者的時間就不多了。到目前為止,腫瘤轉移的研究還停留在「假說」階段。換句話說,假說依然是「假」的,並沒有被證實,所以我們對於腫瘤轉移依然束手無策。

圖 14. 腫瘤轉移的 10 種理論或假說

「同化共生」,是我們基於我們的研究結果提出的有關腫瘤轉移的一個新概念。腫瘤細胞通過改變身份與特異性轉移的器官相互適應,進而在轉移的組織器官中與新的環境「同化共生」,可能是腫瘤轉移的新機制。物以類聚,人以羣分,腫瘤的發生和轉移也一樣。腫瘤轉移是腫瘤治療失敗的重要原因之一,而腫瘤特異性的器官轉移機制並不清楚。例如肝癌容易發生肺轉移,我們通過分析肝癌細胞 97L 和肝癌特異性轉移到肺的 LM3 細胞的 DNA 甲基化模式和基因表達情況,發現肝細胞特異性的基因表達顯著降低,而肺細胞特異性的基因表達上調,我們認為肝細胞身份丟失和肺細胞身份的獲得是肝癌發生肺轉移的重要原因。在肝癌發生和轉移過程中,伴隨異常的 DNA 甲基化介導的細胞身份的丟失和獲得,使肺特異性基因表達增加,從而使肝癌細胞獲得了肺細胞的身份,這有助於肝癌細胞在肺的環境中適應和生存,而這也許是腫瘤轉移最重要的原因。簡單的說,就是細胞換了個「馬甲」,從而實現了「同化共生」。

圖 15. 肝癌發生過程中細胞身份的丟失

和我們預想的一樣,在 97L 和 LM3 肝癌細胞系中,肝特異性高表達的基因的數目分別降低了 74% 和 80%。例如,在 97L 和 LM3 細胞中,肝特異性基因 ONECUT2 表達沉默,這與 H3K27ac 峯的丟失以及肝特異性增強子區域 DNA 甲基化的增加相一致(圖16D)。另一方面,在97L 和LM3 中觀察到肺特異性基因 CKS2 的表達升高,這與 H3K27ac 峯的升高以及肺特異性增強子中 DNA 甲基化的降低相一致(圖16E)。在 LM3 中肺特異性的基因的表達可以幫助它們更好地在肺環境中適應和生存,即實現了「同化共生」(Assimilated Symbiosis,我 coin 這麼個詞),而腫瘤細胞身份的丟失以及其他細胞身份的獲得是腫瘤發生轉移的前提條件和重要轉折點。

圖 16. 肝癌發生和轉移過程中肝/肺特異性基因的表達變化

同化共生背後的表觀遺傳因素可能是腫瘤發生特異性器官轉移的重要分子機制,這為我們理解腫瘤轉移提供了全新的視角。

後記

在這篇文章發表之際,我覺得我應該認真的總結一下,也需要寫點什麼,紀念一下自己,也紀念一下這 8 年逝去的光陰。GPS 甲基化測序一直是我們實驗室的重頭戲,我們投入了太多的人力、物力和我幾乎全部的精力,這篇文章的圖表超過 80 幅,工作量可想而知。在這 8 年時間裡,我們實驗室前後有 6 位博士或博士後投入研究,我們有過失敗,反覆的失敗,但我們每一個人都扛下來了。該項研究前期在 Nature Biotechnology 審稿並根據審稿人的意見反覆修改折磨 2 年多。用一位學生的話說,實驗的失敗其實並不算什麼,面對審稿人反覆折磨並在連續 3 次回答完全部問題後,又提出完全不同的新問題進行一遍又一遍的折騰,真是「死的心都有了」。然而,正所謂不經風雨,難見彩虹。正是這種置於死地而後生的「煉獄」式折磨,伴隨著實驗室的成長,也陪伴著我們每一位博士的成長,我也相信這一切也成就著我們每一個人的未來。這8年來,我們最大的收穫也許是培養一批「敢打敢拼」博士生。 EpiRNAers 可以自豪的說,有「EpiRNA Lab」這碗酒墊底,以後還有什麼酒過不去!而做別人不相信的研究,將是何等極致的人生體驗。感謝他們!祝福他們!

撰文:徐鵬(復旦大學生物醫學研究院博士生)

於文強(復旦大學生物醫學研究院教授)

推薦閱讀:

相關文章