用數學詮釋生命——當今生物信息與計算生物學回顧(一)李小凡Xiaofan LiCambridge Computational Biology Institute (CCBI)Department of Applied Mathematics and Theoretical Physics (DAMTP), University of Cambridge, CB3 0WA, United Kingdom本文接受任何形式的轉載和轉發,但請保留文章標題和內容的完整性以及作者署名信息從數學第一次嘗試介入解決分子生物學問題開始算起,至今已經有大概四分之一個世紀了。所以,所謂 「生物信息學」 和其近親「計算生物學」,並不是如人們想像的那樣新興。在上世紀 70 年代,已經開始出現針對核苷酸序列比對演算法的研究,其基礎就直接來自於計算機演算法研究的發展-動態規劃 (Dynamic programming),即在兩個長度為 N 和 M 的序列正交形成的 N x M 的矩陣中,對每一個元素 (i,j) 根據某種機制打分,並在打好分的 N x M 中尋找一條自左上至右下得分之和為最小的路徑,即最短路徑,又即最佳比對方案。值得一提的是,動態規劃並不只適用於序列對比,用遞歸演算法實現動態規劃的思想,最初就是用來解決諸如 Travelling Salesman, 揹包問題及其派生出的優化問題的。自 80 年代開始,序列信息開始成倍的增長,因為測序技術在這個時間得到了相當大的發展。另一方面,計算機的計算和存儲能力在這 10 年內迅速提高,給各種數學理論在分子生物學中的應用奠定了硬體基礎。畢竟,生物的複雜度要遠遠超過自然,用筆來計算生物學中的規律,是絕無可能的(這也是 19 世紀末 20 世紀初理論物理和如今「理論生物學」的顯著區別之一)。生物系統是非線性的,隨機的,這就決定了數學在生物學中的介入,以數值問題和隨機過程為主;而在其他學科,如微觀經濟和理論物理中的數學,往往是分析問題。對於依賴數值解,時間複雜度又相當高的問題,使用計算機是唯一的解決方案。真正意義上的生物信息學和計算生物學,就基本上在此時誕生了。另一方面,分子生物學上取得的進展,尤其是用於測定蛋白質 3D 結構的 X 射線晶體分析 (X-ray crystallography) 和核磁共振 (Nuclear Magnetic Resonance, NMR) 技術的進步,使得生物學者對蛋白質結構和其序列之間的關係有了更加清晰的印象。而蛋白質結構域又往往與其生理功能相適應,這就給分子生物學中的幾大類研究建立了聯繫,即功能研究依賴於結構研究,結構研究又依賴於針對蛋白質序列的分析。再加上 Watson-Crick 中心法則,使蛋白質序列與基因序列相關,就形成了研究生物學「主流」問題的一整套體系。雖然依據這種思路的實驗方法在 80 年代就已經相對完善,但直到以隨機過程和概率論為先鋒的數學開始介入其中之後,這個體系的內在聯繫與規律才開始被真正揭示出來。所謂「生物信息學」和「計算生物學」,實際上應當歸納為「理論生物學」。不過,理論生物學一詞目前還較少提及,因為直至今日,在生物學研究裏,仍然缺少嚴密、規範、完整的理論體系。但是,從彼時起,我們至少已經開始在正確的道路上前行。時至 90 年代,個人計算機性能的再一次爆棚,使得處理生物學中複雜序列問題的金錢和時間成本又一次大大降低,許多原先由於過於複雜而不可實現的演算法,在快速 CPU 和大容量內存的支持下得以輕鬆運行。最顯著的例子就是 BLAST 演算法與序列資料庫在過去 15 年中的「協同進化」。BLAST (Myers & Miller, 1990) 是動態規劃解決序列問題最著名的一個實現版本,派生出無數應用,如位於 NCBI 基於 GenBank/UniProt 的各種 BLAST 搜索引擎,又如各種獨立的 BLAST 小程序等。在生物信息學剛開始為普通大眾所知的年代裡,BLAST 與 NCBI 幾乎成了該學科的代名詞,以至於很多人(包括相當多的生物學家)認為,生物信息學就是測序,BLAST, 測序,BLAST, 測序,BLAST! 誠然,90 年代對這個領域來說,是數據爆增的時代,因此針對數據存儲和直接搜索的應用顯得尤為重要,如各種各樣的數據搜索工具和序列比對程序。另一個所謂生物信息學程序包,EMBOSS,在這個時代也逐漸被豐富和完善。EMBOSS 由很多小程序組成,每個程序能根據給定的一個序列計算這個序列的某一個屬性,如計算 GC 含量,尋找 CpG 島,預測內含子剪接位點,等等。這些應用也確實屬於生物信息學範疇,但是在如今的觀點看來,只能說是相當基礎的應用了。實際上,這些小程序只是手工處理序列信息的自動化版本,他們除了作為「計算器」給分子生物學家提供了更快獲得序列某種屬性的途徑之外,並沒有產生更多的價值,也沒能將生物信息學從「工具」轉化為獨立的研究方向。生物信息學真正作為一門獨立而有重要作用的學科,始於其計算生物學分支在 90 年代的發展。不同於廣為人知的 DNA 和基因,這個分支是從研究蛋白質 3D 結構開始發展的,即從結構生物學入手。在相當長的一段時間內,甚至直到今天,許多生物學者理解的結構生物學,就是指用 X 射線晶體分析和核磁共振 (NMR) 測定蛋白質結構,這也是多數結構生物學實驗室如今仍然在做的事情。用於儲存這些測定好的結構的資料庫,PDB (http://www.pdb.org), 至今已有數萬條記錄。對於某些熱點蛋白質,PDB 裏往往會有不同實驗室在不同時間用不同方法測定結構而提交的不同記錄,比較這些記錄的共同點與差異,往往會有對於這個結構本身相當重要的發現。另一方面,雖然蛋白質結構測定技術與 70 年代已不可同日而語,但結構的測定速度永遠趕不上測序的速度,也就造成了 PDB 的記錄在 GenBank 和 UniProt 中的對應序列記錄佔序列總數的百分比反而越來越少。這就使得人們開始考慮,是否能通過已知的結構和序列,通過歸納某種方法,能夠根據測序結果推知未知蛋白的結構?我們可以假設這個方法為 f, 已知序列為 x_0, 對應的已知結構為 y_0. 我們希望能從 y_0 = f(x_0) 中歸納出 f, 從而求出對任意 x 的 f(x),即對應任意既有序列的結構。從數學的角度看,這是一個非線性分類問題;用計算機科學的語言來說,這是一個模式識別問題;用人工智慧和機器學習領域的觀點,這是一個分類器的學習問題。客觀的說,直到今天,人們仍然沒有找到這樣一個精確的 f, 也沒能發明某種方法完全實現 f 的功能,但迄今為止所有在數學、計算機及機器學習領域裡的成果,都已經在蛋白質結構預測中有所嘗試,包括簡單的非線性函數,主成分分析 (Principal component analysis, PCA),模擬退火演算法 (Simulated annealing),遺傳/進化演算法 (Genetic/evolutionary algorithm),神經網路 (Artificial neural networks, ANNs),隨機概率論模型如隱 Markov 模型 (Hidden Markov models, HMMs),Bayesian 推斷網路 (Bayesian inference networks) 等。其他非學習手段,包括來自分子力學和動力學的蛋白質摺疊模擬,以及對於構象的立體幾何排列研究等,也被用來參與預測蛋白質結構的研究。在如今的研究中,這些方法都是混合使用的,雖然如上所言,人們並沒有得出一個一攬子解決方案,但是在不斷嘗試各種方法的過程中,對蛋白質從線性多肽到完整功能構象的摺疊過程,已經有了越來越深的認識。值得指出的是,來自於序列領域的知識,如序列中的特徵片段 (Motif) 識別,二級結構元件預測,以及更大的結構域同源性的發現,是進行結構研究的重要組成部分,也正是藉於此,傳統生物信息學和傳統計算生物學在 90 年代找到了結合點,形成了不可割裂的一門學科,開始向理論生物學發展。2000 年,生物信息界最廣為人知的進展即為人類基因組測序完成,23 條染色體共 3Gb 鹼基對的序列。這是一項規模宏大的基礎工程,給今後的所有領域的生物研究產生了深遠影響,但卻被當時的非專業決策者和普通大眾過高得估計了其「市場價值」。因此,當所謂的「生物科技泡沫」與「互聯網泡沫」都隨著 NASDAQ 重挫而消失殆盡時,人們才開始重新嚴肅、謹慎的審視基因組,序列和生物信息學。人類基因組計劃在生物研究上的重要貢獻,除了 3Gb 的數據本身之外,更重要的是建立了一種以序列為基礎的研究方向和方法。從此之後,幾乎每一個生物學者都開始習慣在基因庫中尋找序列上的同源信息以獲得有關自己研究對象的更多信息,或者乾脆直接從序列開始,做蛋白結構和功能分析。隨著人們測完了這個生物界相對較大的基因組,測序技術本身也得到了非常快的發展,錢海戰術和人海戰術並用,在接下來的幾年內使 GenBank 的數據水漲船高,至 05 年 8 月達到了 100Gb,實在不能不說是一次卓有成效的「大躍進」。核苷酸序列數據達到這個水平,也就從側面表明了,一個基因在基因庫中的丰度,已經能在資料庫中初步的表達出來。搜索一些熱點基因,可以在庫中得到上百個同源結果,這為比較研究——也就是最簡單的「找規律破譯密碼」邏輯——提供了足夠多相似而不相同的研究樣本。當然,測序得出的基於 EST 片段的基因組序列,其直接生物學價值是很小的,更重要的工作是基因注釋 (Gene annotation),其內容就是將基因在大量的非基因序列中標記出來,並且正確分辨讀碼框 (Reading frame),內含子 (intron) 與外顯子 (exon)。這又是一個複雜費時的工作,所幸仍然有政府背景的錢海支持,人類基因組的注釋已經基本完畢,完全手工精確注釋 (VEGA 項目, EBI, UK & NCBI, US) 也已經在一些重要染色體(如 Chr 6, 重要的免疫球蛋白家族 HLA, IG, 原癌基因 p53 等都在此)上完成。而對於其他還未分到一杯羹的已測序物種基因組,人們用一些效果相當不錯的軟體包去做基因發現,以及剪接位點預測等自動化工作 (HMMER @ Ensembl, EBI, UK),也取得了十分有效的成果。值得一提的是,這些軟體包都是生物信息領域的重要成就;人們對演算法性能提高的渴望,以及對學習演算法精確率的狂熱,永遠沒有止盡。遍覽最近五年的生物信息期刊 (Bioinformatics, Oxford Journals; BMC Bioinformatics, BioMedCentral),關於比對性能,學習模型,性能評測方法,訓練集測試集選擇等等話題的討論實在是數不勝數,使得這兩本雜誌有時候看起來更像某種數學期刊;不過,嚴肅的說,這也從側面體現了,數學理論已經真正融入生物學研究中,並逐漸催化生物學從實驗科學變成正規,系統的自然科學。在自然科學裡,化學和物理學已經早先一個世紀完成了這種轉變,在數學上得到統一;而生物學中的數學,除了種羣生態學中的一些簡單的模型,遺傳學中用於計算基因頻率的簡單概率論,以及用於統計試驗結果的檢驗工具 (誤差,t-檢驗等等)之外,一直是個空白,或者說沒有深入到生物的本質。而現在,基於對序列隨機模型的研究,我們可以一步一步接近以隨機過程為本源的生物學的數學核心。畢竟,有了數學,一門科學纔有了靈魂,纔可以稱之為真正的科學。關於 2000 年後計算生物學分支的發展,包括 Microarray 方面和蛋白質結構和相互作用方面的研究,以及系統生物學的發生,將在下回分解,謝謝大家收看,這次先講到這裡。
推薦閱讀:

查看原文 >>
相關文章