Qualimap2是可用于对比对结果进行质控的一款软体,基于Java和R,platform-independent并且有图形用户界面(GUI)和command-line两种模式。可用来分析WGS, WES,ChIP-seq 还有 RNA-Seq的实验结果(对RNA-seq还有特别优化模式)。
分析对象可以是SAM或者是BAM文件,在Qualimap2中也支持多样本的分析。
下面就以RNA-seq的数据尝试一下分析吧~
Qualimap2提供运行在Windows上的包,也提供在 LInux 和 MacOS 上运行的源码(GPL v.2),于是先下载.zip,解压:
wget https://bitbucket.org/kokonech/qualimap/downloads/qualimap_v2.2.1.zip unzip qualimap_v2.2.1.zip
进入文件夹运行下看看:
cd qualimap_v2.2.1 ./qualimap
报错讲需要再装一些R包:
装好回来再次运行就可以进入图形界面了。
下面运行一下command-line模式下的BAM file QC, 需要sorted BAM file作为输入:
qualimap bamqc -bam ERR089819.bam -c
如果遇到可报错说RAM不足(RAM的储量,还够么!),在运行qualimap的时候可议加上参数:
qualimap --java-mem-size=1200M qualimap bamqc -bam very_large_alignment.bam --java-mem-size=4G
BAM QC的可选参数:
-bam <arg> :输入的BAM
-c,--paint-chromosome-limits:在chart里对染色体边界著色
-gff,--feature-file <arg>:可选的Feature文件,GFF/GTF 或者 BED 格式
-os,--outside-stats:同时也报告之前加入的gff文件区域外的部分(如果没有用-gff参数则忽略该选项)
-nr <arg>:一个chunk的reads数,默认是1000(内存大可议任性)
-nt <arg>:线程数,默认是8
-outdir <arg> :输出HTML的文件夹
-outfile <arg>:输出pdf的文件名
-outformat <arg>:输出报告的格式 (PDF 或者 HTML, 默认的是HTML).
-sd,--skip-duplicated:加上这个参数以跳过有flag标记的duplicate alingments,如果没有放flag的话,按照qualimap自己估计进行处理
-sdmode,--skip-dup-mode <arg> :指定处理哪些duplicate alignments,
0 :只处理比对文件里被加了flag的(默认值)
1 :只处理qualimap估计的
2 :以上两种都处理
-hm <arg>:indel分析中homopolymer最小大小(默认是3)
-ip,--collect-overlap-pairs:统计overlaping的PE reads
示例报告:
与普通的BAM QC差不多, 使用图形界面的话也可以(只是不好重复以及有些选项找不到):
qualimap rnaseq -bam kidney.bam -gtf human.64.gtf -outdir rnaseq_qc_results
-gtf <arg>:注释文件,Ensembl GTF格式.
-oc <arg>:counts的输出路径。
-outdir <arg>:HTML报告的输出文件夹
-outformat <arg>:报告格式(pdf 或者 html(默认))
-p,--sequencing-protocol <arg>:Sequencing library protocol:
strand-specific-forward,
strand-specific-reverse or non-strand-specific(默认)
-pe,--paired:对paired end的数据加这个选项时,会计数fragment而不是reads
-s,--sorted 加了这个参数表示输入文件已经排序好了,否则会按照名称排序
除此之外还有 Multisample的BAM QC, Counts QC,Clustering,Computing counts 等功能,有需要的话可议去Qualimap2的网站上继续探索哟。
Multisample的BAM QC:
qualimap multi-bamqc -i gh2ax_chip_seq.txt -outdir gh2ax_multibamqc
gh2ax_chip_seq.txt:
sample_1 sample_1_stats group_1 sample_2 sample_2_stats group_1 sample_3 sample_3_stats group_1 sample_4 sample_4_stats group_2 sample_5 sample_5_stats group_2 sample_6 sample_6_stats group_2
参考来源:
A survey of best practices for RNA-seq data analysis(2016), Ana Conesa等