科學研究的革命性進展依賴於新技術的出現,這在基因組學的研究中體現得尤為明顯。例如Sanger測序法和微陣列技術,Sanger測序法使人類基因組測序成為可能,微陣列技術首次實現了大規模全基因組實驗。現在,距離科學家首次對人類基因組進行測序已經過去了15年,在這15年中,測序技術飛速發展,基因測序數據也不斷湧入,但是解讀這些編碼人類生命的海量基因數據,使它們產生真正的意義仍是一個巨大的挑戰。慶幸的是,現在我們可以通過機器學習幫助解決這一問題。

12月4日,Google開源發布了一個名為DeepVariant的深度學習工具(github.com/google/deepvariant)。DeepVariant使用最新的人工智慧技術,可幫助人們將高通量測序數據轉換為完整的基因組圖像,並且能自動識別測序數據中的插入、缺失突變以及單鹼基對突變。

2000年初,基因測序領域中最具變革性的新技術之一——高通量測序技術(HTS)首次實現了商業化應用。HTS可以大規模、低成本、快速地獲得任何生物的基因序列,但是它有一個非常大的問題,就是其測序結果不是完整的、碎片化的片段信息。例如,在進行人類基因組測序時,要對23對染色體中的30億個鹼基對進行檢測,儀器會產生約10億個reads,每個reads僅代表30億個鹼基中的100個,每個鹼基的錯誤率在0.1~10%的範圍內。但對科學家來說,將一些小的突變與測序過程中產生的隨機錯誤區分開來很困難,尤其是在基因組的重複部分,甚至會錯過一些與癌症等疾病相關的重要基因突變。因此,將HTS的測序數據轉化成單一、準確並且完整的基因組序列是基因測序領域的一個主要挑戰。

目前,有許多工具可以用來解讀這些基因數據,比如GATK、VarDict和FreeBayes。但這些軟體程序通常使用更簡單的統計和機器學習的方法來識別突變,並排除錯誤信息。

DeepVariant是由Google Brain及Verily公司的聯合團隊,歷時兩年多研發的深度學習工具。研究人員通過將工作量巨大的碎片結果拼接問題,轉變成谷歌擅長的圖像分類問題,使用谷歌現有技術和專業知識完成識別工作。DeepVariant用專門的深度神經網路來識別HTS結果中DNA測序數據里的鹼基變異位點,在準確率上和精確度上,比傳統的比對拼接方法都高出許多。

DeepVarient工作流程

2016年,DeepVarient還在PrecisionFDA Truth Challenge中贏得了最高SNP性能獎(Highest SNP Performance)。在那之後,Google Brain團隊又將錯誤率降低了50%。DeepVarient的成功表明,在基因組學中,深度學習可以被用來自動訓練比複雜的手工程系統更好的平台。

DeepVariant的開源發布是機器學習促進基因組學發展的最新跡象。DeepVariant現在作為開源軟體,可以鼓勵加速使用這項技術來解決現實問題。為了實現這一目標,Google Cloud Platform(GCP)上部署了DeepVariant workflow,用戶可以在當前的計算環境中探索和評估DeepVariant的功能,同時也提供了可擴展的基於雲的解決方案,以滿足即使是最大的基因組數據集的需求。

未來幾年,人工智慧將有助於醫學在許多方面取得巨大的飛躍,並有機會從圖像或病歷中挖掘許多不同種類的醫學數據。例如,一個人類醫生可能錯過的疾病。

開源代碼:https://github.com/google/deepvariant

Google Cloud版:https://cloud.google.com/genomics/deepvariant

·END ·

推薦閱讀:

查看原文 >>
相关文章