生物信息遇上Deep learning(4): DeepNano
前言
我终于完成了我的毕业设计和我的毕业照,前后停滞了一个多月的时间,有一些个人原因也有毕业事情太多了,也希望大家见谅,还有,我目前还处于自学和初学的阶段,有些私聊的朋友想找我做项目啥的,本人时间和精力上都不太允许,望见谅!以后我会多更新的
今天还是讲讲另外一篇我看的文章,是做长序列的base calling的,是基于循环神经网路来做的, base calling 和variant calling比较相似,只不过一个是由于测序工具导致的测序错误,一个是由于发生了SNP或者indel导致的,因此这个文章所做的方法对于variant calling 也有一定的参考价值。
论文地址在2017年发表在PLOS ONE
源码地址:用的Theno写的
Motivation
这篇论文的动机是为了解决第三代测序技术的高错误率的问题,针对的是目前非常流行的三代测序技术MinION测序技术开发的,通过设计一个深度的双向循环神经网路,用于减少测序的错误率,检测出序列中的错误碱基,相比于主流深度学习的方法,作者提出的演算法有更好的表现。
MinION测序技术简介
纳米孔测序技术是最近几年兴起的新一代测序技术。目前测序长度可以达到150kb。目前市场上广泛接受的纳米孔测序平台是Oxford Nanopore Technologies(ONT)公司的MinION纳米孔测序仪。它的特点是单分子测序,测序读长长,测序速度快,测序数据实时监控,机器方便携带等,但是和其他高通量的测序技术一样,测序的平均错误率相对二代测序更高,达到15%-20%,这么高的测序错误率也限制了三代测序技术在实际应用的发展。