註:本文轉載自公眾號iProteome,原文作者為秦鈞教授

歡迎大家關注iProteome~

iProteome新年巨制-秦鈞|透過水晶球看2019年的蛋白組學?

mp.weixin.qq.com
圖標

編者按2019的鐘聲剛剛敲響,回望2018,可以說是蛋白質組領域蓬勃發展的一年。據不完全統計,2018年Nature、Science和Cell上共發表蛋白組學相關的文章超過10篇。蛋白組學正從小學科向著大科學領域邁進。2019開年之際,我們請來了國家蛋白科學中心·北京的秦鈞教授,為我們撥開迷霧,暢想一下2019的蛋白組學,掌聲有請秦鈞教授(雷鳴般的掌聲)。

歷經20多年的成長,特別是最近5年的快速發展,奮戰在一線的蛋白組人開始感到蛋白組學正發生著變革性(transformative) 的變化。在2018年,我們看到了一線曙光——也許蛋白組學可以直接解決一些人類健康的難題。

蛋白組人經過20多年的努力,在質譜技術、樣本製備流程、生物信息學分析思路上的不斷迭代更新,現在終於到了這個時刻:只測蛋白(可能甚至不需要任何基因突變的信息),就有可能回答腫瘤病人最關心的二個問題,手術後,1. 我能活多長?會複發嗎?2. 我需不需要化療,應該用什麼樣的化療方案?

我們可以回答這兩個問題,是基於如下的積累:現在蛋白組人能在有限的時間內完成百例以上臨床腫瘤樣品的質譜檢測,通過生物信息學分析可以描繪出腫瘤蛋白組的地形圖(proteomics landscape),從而實現腫瘤的分子分型。回顧性研究發現不同的分子亞型和病人的預後和化療方案的選擇都有顯著的關聯:同是胃癌,有的亞型預後好,有的預後一般但對化療敏感,但有的亞型預後差對化療也不敏感。胃癌分子分型的本質其實是在蛋白變化的層面上來界定胃癌的種類。儘管都是胃癌,不同亞型的胃癌其實在蛋白的層面是不同的疾病,因此就會有不同的預後,治療的方案也就需要有的放矢。

有了腫瘤蛋白組變化的地形圖在手,我們就可以分析出不同亞型腫瘤信號通路的變化,這不但在腫瘤基礎研究上意義重大,在腫瘤臨床治療上也意義重大,因為我們可以發現每一個病人靶向治療的蛋白靶點,從而使個性化治療成為可能。3-5年以後,人們也許會記住2018年是蛋白組學驅動的精準醫療的元年。

那麼2019年的蛋白組學會是個什麼樣子呢?

應用到醫院的臨床蛋白組學·壹

2018年樹立了臨床蛋白組學的路標(road map), 堅定了蛋白組人的信心,有部分人開始相信蛋白組解決複雜疾病,比如腫瘤,有著比基因組更大的優勢。2019-2020年會有一批描繪各種腫瘤蛋白組變化地形圖(proteomics landscape),實現不同腫瘤的分子分型的工作面世,而且很多會是中國團隊的工作。這些工作將會鞏固蛋白組學驅動的精準醫療的基礎,吸引更多的團隊投入這項重要的工作。

有了這些基礎,2019年會開始嘗試應用到醫院的臨床蛋白組學。為什麼要提出應用到醫院的臨床蛋白組學這樣的一個概念?因為現在繪製腫瘤蛋白組地形圖的目的和方法和應用到醫院的臨床蛋白組學的目的和方法還是有極大的差別的。我們繪製腫瘤蛋白組地形圖用的是手術切下來的冷凍樣品,科研的目的更多的是在蛋白的層面理解腫瘤,更偏向基礎研究;而應用到醫院的臨床蛋白組學,科研的第一目的是為臨床醫生提供為病人診斷治療的工具和方法,讓病人獲益。應用到醫院的臨床蛋白組學必須有一個原則:不能再給臨床醫生添任何麻煩。醫院常用的是石蠟切片(FFPE),這就要求我們必須用FFPE 的大病理樣品或者活檢的樣品作為分析的材料;同時,蛋白組學方法也必須改進。現在的方法效率還不高、還不穩定,用來建立單個腫瘤(比如,胃癌)預測模型的樣品數還不夠多。最終應用到醫院的臨床蛋白組學可能需要質譜檢測在15-30分鐘之內完成,需要利用來自多中心的樣品來建模,可能需要500-1000例的樣品以便儘可能地覆蓋胃癌的各種類型、包容各中心製作FFPE的不同特點。生物信息學的分析也必須穩定,快速。總之,從拿到樣品到出實驗/檢測報告,應該在2-3天內完成。穩定、快速、全面、準確可能是應用到醫院的臨床蛋白組學的特點,這和蛋白組學的基礎研究的特點還是不一樣的。

應用到醫院的臨床蛋白組學是一個很高的目標。現在最難做的,自然是那個第一個實現這個目標的項目,這也是遠見和創新的所在。

那怎麼才有可能實現這個目標呢?

很明顯依賴一個實驗室是無法完成的。這個項目需要多中心的腫瘤科和病理科醫生的參與,需要單中心或者多中心的蛋白組學研究者,以及大數據分析人員的緊密合作。 樣本的採集和處理,質譜數據的採集和分析,在大數據框架下的生物信息學分析和臨床資料的採集和整理都必須利用同樣的流程。這基本要求上述工作人員在一個實體或虛擬的臨床蛋白組學中心中按照統一的SOP完成這個任務。

那對參與這個項目的人員會有什麼樣的要求呢?參與這個項目的人員,基本上需要有臨床、組學、生物信息學和生物研究的多重訓練。對項目的領導者和組織者則有著更高的要求,除了科研、管理、溝通、協調和獲取資源的能力以外,領導者的情懷和人品在項目的執行中將會起到決定性的作用。這個項目的帶頭人,如果沒有一顆「懸壺濟世」的善心是不可能把這個項目做到極致的。極致的標準,就是病人能夠獲益。在項目的執行中,一定會遇到各種困難,不但有科研上的問題,也會有倫理的問題,監管部門如何監管的問題。這些都需要項目負責人去溝通、協調和克服。做項目的方法,有些能「摸著石頭過河「,有些會是「改革深水區」的問題,必須得用創新的方法,來解決這些困難。

應用到醫院的臨床蛋白組學是一個特殊的項目,和PI 驅動的其他項目有很多不同。從科研績效的角度講,對個人會是產出投入比非常小的,對參加項目的每一個人產生的個人效益將會是微乎其微的,但其社會效益將會是巨大的。對每一個人的最大獎勵,可能會是妙不可言的心理滿足,那種」我用自己的發現讓病人得益「的美妙心情將會陪伴每個人的一生。羅嗦了這麼多,其實就是想告訴大家,應用到醫院的臨床蛋白組學是一個非常難的項目,除了科研上的難度和創新,還會有很多心靈上的撞擊。我感覺這是一個「白求恩「式的項目,需要參與這個項目的人有一顆做一位高尚的人,成為一位有利於人民的人的紅心。

歷史將會證明需要有理想有情懷的科學家和醫生才能把臨床蛋白組學推到醫院讓病人獲益。

基礎蛋白質組學·

現在的蛋白質組的技術己經足夠好了,可以用來解決各類國計民生的實際問題。基礎蛋白組學技術本身在2019年雖然看不到會發生變革性(transformative) 變化的痕迹,反而是大家一直糾結的某些問題很快就會有比較清晰的答案。

大家關心的測蛋白組的深度/覆蓋率,是要測1萬個蛋白,還是2千個蛋白,其實本身就是個偽命題。要測多少個蛋白,完全是項目要回答的問題決定的。大家要明白有些項目測2千個蛋白就能解決問題,不是每一個項目都需要蛋白組的高覆蓋。

大家糾結的是要做DDA還是DIA/SWATH,也根本不是一個問題。特定的科研項目再加上實驗室的積累會決定你應該採取哪一個方法,不能說DDA和DIA 說誰優誰劣。同樣的,是要做有標定量還是無標定量,也是由項目和實驗室的積累決定的,難講哪一個更好,大家也沒有必要去特意鼓吹、推廣哪一種方法。比如在我們實驗室,我們只做無標定量的DDA,當然有些時候,我們也會做點PRM。我們這樣做,是因為這個方法可以回答幾乎所有我們感興趣的問題。

蛋白ID包括PTM檢測的搜庫方法,在OPENSEARCH 和pFIND-3.0的框架下也已經足夠好了,可以解決99% 的問題了。剩下1%的問題,留給真正的專家去思考、解決吧。倒是怎樣驗證ID,PTM的對錯是個沒有解決的大問題,現在主流的FDR演算法,其實在底層邏輯上是經不起推敲的,但大家好像也不是太care about 這個問題。也許因為是主流的演算法,大家也就跟著隨波逐流了。蛋白定量,怎樣定準,這是個大問題,現在的方法有許多問題,期待以後能解決這個難題。解決蛋白質定量不準確的問題,可能需要新的理論和邏輯體系,不能只是修改、完善一下現在的主流做法。這會是一個創新的領域,但極具難度。我也看不出來2019年有解決這個問題的可能,期待未來吧。

當然,樣本製備的問題永遠是在最上游的那個問題,幾乎有無限的方法,也有無限的想像和上升空間,值得關住,值得下大力氣去開發。可惜在這個方向上用心的人還不多。

2019年或許會有人嘗試一個蛋白組學質譜檢測的標準。這個標準會包括標準品實物,樣本測量的質譜方法,更重要的是蛋白定量的方法和演算法。 有了這個標準,並且按照這個標準執行,可以在一定程度上做到,同一個標準品在不同的儀器上 (比如QE-plus, QE-HF, FUSION, LUMOS, timsPro, 6600, 等等)可以測出相同的結果。這個標準也會幫助大家檢測自己的儀器是否處在正常的工作狀態,可以比較不同平台儀器的工作情況。期待2019年開始,蛋白組人可以逐漸解決那個尷尬的問題 - 不同的平台測同一個樣品,得到的結果不一樣。正確的檢測方法,得到的結果應該都是平台、儀器相對獨立的。

2019年讓我最期待的是timsTOF-pro 和FAMES-LUMOS-Orbitrap 這兩款儀器。增加了 ion mobility的這兩款儀器,讓質譜進入了一個新的維度,開始看見過去看不見的東西。這會讓蛋白組學更接地氣,會加快蛋白質組學解決國計民生科學問題的速度。更值得期待是,timsTOF-Pro 能不能打破Orbitrap 在蛋白組學領域一家獨大的局面。Orbitrap 是一台偉大的儀器,但長期壟斷一個領域,令人窒息,也不利於領域的發展。

上述兩款儀器,如果能與合適的色譜方法連用,也許會釋放巨大的能量。大家需要思考的是合適的色譜方法會是個什麼樣子?我的感覺,肯定不是更長、更細的柱子,也不會是更低的色譜流速。2019年,大家會發現色譜越來越重要。誰的色譜解析度高、速度又快、還穩定,誰就會對基礎蛋白組學做出最大的貢獻。

2019年基礎蛋白組學真正需要解決的問題是速度。怎樣在最短的時間內測一個蛋白質組。期待產生能解決實際問題的15-30 分鐘的蛋白質組學方法。我感覺這個是有可能在2019年實現的。快速蛋白質組學的出現,就會降低組學檢測的成本,蛋白組學驅動的精準醫療就會成為可能,蛋白質組學的領域就會進入蓬勃發展的軌跡。

Native/crosslinking MS, top down MS, PPI, 各種各樣的新技術,新方法都會層出不窮地產生,然而不好預測。呼喚能夠測量蛋白質活性的組學方法,期待糖組學能變革糖生物學,把「甜蜜」帶入生物研究。

大規模數據採集,小規模數據分析,描繪各種地形圖或鳥瞰圖的套路在2019年將會發現開始進入寒冬。除非在數據中發現了石破天驚的秘密,這種描述性的工作,開始難以滿足人們的好奇心。以前這一類工作的創新點在實驗本身 - 人類第一次有這個能力做這樣的實驗。現在則需要更深層次的數據分析、挖掘,產生新的知識點,提出新的假設,並用另外的實驗來驗證。驗證將變的越來越重要,以後可能會成為不可或缺的部分。也許到了回歸初心的時候,所有生物實驗都是為了研究功能,蛋白質組學必須向功能進軍。

向功能進軍的第一步,一定是從實驗的選材開始。過去只用腫瘤細胞系做實驗,現在測了腫瘤組織,測了正常組織,測了人的樣品和小鼠的樣品,終於知道了它們的差別是蠻大的。從2019年開始,當用細胞系做實驗時,一定要問自己,這個適合嗎?做腫瘤有關的課題,必須得從分析腫瘤開始。先在細胞系裡篩,然後到腫瘤組織中去驗證,是一個本末倒置且危險的操作,是產生各種artifact 的溫床。比如做腫瘤免疫治療課題,就不能用裸鼠的PDX模型,裸鼠荷瘤的實驗和細胞系的結果也沒有太大的區別。做組學測量,這些問題都要考慮好。我個人認為,除非做分子機制,蛋白質組學應該遠離腫瘤細胞系。

2019年要遠離兩個坑。

第一個坑是多組學整合(integration)。整合基因組,轉錄組,蛋白組的願望很好,但也就是個美好的願望。基因,RNA, 蛋白基本上是線性的信息流,整合一個線性的信息流,收益是有限的。整合互相垂直的信息,收益會最大,但我看不出來生命組學中測量的東西,哪些是互相垂直的信息。以前蛋白質組不好測量,大家缺少蛋白的信息,希望用容易測的DNA,RNA 來代替。現在看來,在DNA,RNA,蛋白的信息流上,調控的因素太多,不測蛋白還是搞不定的。蛋白是生命的執行者。研究生命,沒有其他的東西可以取代蛋白。大家現在關注mRNA和蛋白的一致性,這個一致性對測量RNA的人重要,有一致性的RNA 就可以用測量RNA來取代蛋白了。但這個角度,對蛋白質組人來說,卻是大錯特錯了。蛋白質組學要關注RNA和蛋白的不一致性。生物醫學領域,需要一個資料庫,助力人們輕鬆的查到RNA表達和蛋白表達不一致的基因。研究這個資料庫里的基因,必須測蛋白,沒法用RNA 代替。

多維蛋白組學數據,Profiling, PTM, PPI,其實整合起來也不容易。有時,單個的分析都不容易。比如,大規模磷酸化數據在腫瘤分型和預測激酶活性中的應用,也剛剛起步,還沒有看到什麼真正依賴磷酸化組學發現的新東西的範例。這條路還很長。

第二個坑是人工智慧/機器學習。非常好的概念,通俗易懂,使得生物信息學分析更加充滿了想像力。但一切用常規方法可以解決的問題,再用機器學習的方法來解決,都是新瓶裝舊酒,缺乏新意。機器學習的用途,是在常規方法無法解決的問題。現在蛋白組機器學習的限速步驟在於沒有足夠的positive controls, 還無從下手。我們往往不知道在數據面前問什麼問題,也不知道規則是什麼,機器學習要去學習」規則「,現在還是強人所難。

正如古代道教所說萬法歸一,在人類探索自然的道路上,我們會發現學科之間差異會被淡化,學科間的界限會被逐步淡化。但是無論如何,明天對於自然都是一個奇蹟。蛋白組學家,也許會慢慢的失去這個稱號,變成蛋白科學家,生命科學領域都會是生物學家。這也許是2019年的水晶球可以讓我們看清楚的問題。

END

封面 via NASA

編輯:張俏


推薦閱讀:
相关文章