生物信息遇上Deep learning(4): DeepNano
前言
我終於完成了我的畢業設計和我的畢業照,前後停滯了一個多月的時間,有一些個人原因也有畢業事情太多了,也希望大家見諒,還有,我目前還處於自學和初學的階段,有些私聊的朋友想找我做項目啥的,本人時間和精力上都不太允許,望見諒!以後我會多更新的
今天還是講講另外一篇我看的文章,是做長序列的base calling的,是基於循環神經網路來做的, base calling 和variant calling比較相似,只不過一個是由於測序工具導致的測序錯誤,一個是由於發生了SNP或者indel導致的,因此這個文章所做的方法對於variant calling 也有一定的參考價值。
論文地址在2017年發表在PLOS ONE
源碼地址:用的Theno寫的
Motivation
這篇論文的動機是為了解決第三代測序技術的高錯誤率的問題,針對的是目前非常流行的三代測序技術MinION測序技術開發的,通過設計一個深度的雙向循環神經網路,用於減少測序的錯誤率,檢測出序列中的錯誤鹼基,相比於主流深度學習的方法,作者提出的演算法有更好的表現。
MinION測序技術簡介
納米孔測序技術是最近幾年興起的新一代測序技術。目前測序長度可以達到150kb。目前市場上廣泛接受的納米孔測序平台是Oxford Nanopore Technologies(ONT)公司的MinION納米孔測序儀。它的特點是單分子測序,測序讀長長,測序速度快,測序數據實時監控,機器方便攜帶等,但是和其他高通量的測序技術一樣,測序的平均錯誤率相對二代測序更高,達到15%-20%,這麼高的測序錯誤率也限制了三代測序技術在實際應用的發展。