嗨,大家好,我是小L
各位是不是都已经开始搬砖了?
表扬一下看到本推文的同学,都是心系学习,不能自拔。2019,SCI都是你们的!
小L接上期的内容(戳这里),直接从第六部分开始学习FastQC结果报告:
6.Per sequence GC content
(GC含量)
横轴:每条序列的平均GC含量(%)
纵轴:序列数量
解释:对所有reads的每个位置,统计GC含量。红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。
图形判断:
7. Per base N content
(N的比例统计)
横轴:1-150个碱基位置
纵轴:N的百分比
解释:当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生"N"。
图形判断:序列中各个位点的N含量越小越好。
8.Sequence Length Distribution
(reads长度分布)
横轴:碱基数量(序列长度,sequence length)
解释:在理论上,每次测序仪测出来的长度应该是完全相等的,但是总会有一些偏差。比如上图中,150bp是主要的,但是还是有少量的149和151bp的长度,不过数量比较少,不影响后续分析。当测序的长度严重不同时,表明测序仪在此次测序过程中产生的数据不可信。
图形判断:当reads长度不一致时警告,当有长度为0的read时不合格。像上图一样,序列长度集中于150bp就是比较好的情况。当然,不同测序平台的测序长度不同(例如,我司使用illumina平台进行mRNA测序得到的序列长度为150bp),只要实测reads长度集中于理论测序长度即可。
9. Sequence Duplication Levels
(重复序列统计)
横轴:序列重复的次数(1表示unique 的序列,2 表示有 2 条完全相同的 reads,以此类推)
纵轴:重复序列(duplicated reads)所占的百分比,以unique reads的总数作为 100%。
解释:蓝线展示所有 reads 的重复情况,红线表示在去掉重复(冗余)以后,原重复水平下的 reads 占去重后 reads 总数的百分比;
上图的情况中,以红线为例,相当于unique reads数目~20%的reads是观察到两个重复的,~7%是观察到三次重 复的,依此类推。
10.Overrepresented sequences
(一条序列的重复数)
正常文库内序列的多样性水平很高,不会有同一条 read 大量出现的情况。如果有某个序列大量出现,就叫做over-represented。fastQC的标准是占全部reads的0.1%以上。如果均在0.1%以下,则显示No Overrepresented sequences。
图形判断:如果有任何 read 出现的比例超过总 reads 数的 0.1 % 则报 WARN(黄色,!),超过总 reads 数的 1 % 则报「FAIL(红色,X)」。
11.Adapter Content(接头含量)
横轴:序列上每个位置的碱基
纵轴:含有接头(adapter)的序列占所有序列的比例
解释:此图衡量的是序列中两端adapter的情况,并显示可能的来源(用不同的颜色标注)
以上就是fastQC结果报告的全部内容了!
报告如何看,小L已经学会了。但紧接著,小L发现了一个问题,上面的11个参数中,常会出现不合格的情况(「WARN」 or 「FAIL」),这种情况下,该怎么办呢?能不能继续分析呢?
小L请教了金特达基因生信开发部的小哥哥,以下是他的回答原文:
原始测序数据经过fastqc质检后,很少有全部通过的情况,一般都会出现一些warning,因此没有全部通过并不意味著不能进行后续分析。但是前提条件是几个关键参数不能太差,根据经验,一般需要重点关注的主要是 Per base sequence quality、Per base sequence content和Adapter Content。
如果Adapter Content参数曲线中,出现很大比例的adapter(接头)序列的话,一般需要先根据接头序列先去掉接头序列再进行分析的。否则可能会影响后续的比对分析结果。
根据1的阐述,一般需要重点关注的几个参数是:Per base sequence quality、Per base sequence content和Adapter Content。
怎么样?是不是很佩服!
▲图片来源于http://soogif.com
看完专业人员的解答后,深感要学习的东西还有很多啊
下期,小L要学习测序数据经过质检之后,接下来该怎么做了。
请期待~以及点赞、转发支持!
最后来个小互动,你昨天吃的汤圆是什么馅?
小L
参考:
1.https://mp.weixin.qq.com/s/z078N2ewE6T5YB4m_tnU0w
2.https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
3.http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3 Analysis Modules/
转载请注明来自微信公众号「金特达基因」
你可能还想阅读:
小L生信学习日记-1丨linux入门实操笔记
小L生信学习日记-2丨生信入门必知背景知识
小L生信学习日记-3丨原始数据质量如何判断?-上
单细胞测序全搞定-2丨如何将单细胞测序融入到自己的研究之中