Qualimap2是可用于对比对结果进行质控的一款软体,基于Java和R,platform-independent并且有图形用户界面(GUI)和command-line两种模式。可用来分析WGS, WES,ChIP-seq 还有 RNA-Seq的实验结果(对RNA-seq还有特别优化模式)。

分析对象可以是SAM或者是BAM文件,在Qualimap2中也支持多样本的分析。

  • 快速分析在参考基因组上的覆盖度和分布情况(coverage and distribution)
  • 如果提供GFF格式的区域信息,可议分析reads map到这些区域内外的情况
  • 可以根据features对reads做计算和分析(可以做简单的分析啦)
  • 分析RNA-seq实验的测序深度(推测是和表达量有关的)
  • 表观特征聚类(ChIP-seq的部分)

下面就以RNA-seq的数据尝试一下分析吧~

1 安装

Qualimap2提供运行在Windows上的包,也提供在 LInux 和 MacOS 上运行的源码(GPL v.2),于是先下载.zip,解压:

wget https://bitbucket.org/kokonech/qualimap/downloads/qualimap_v2.2.1.zip
unzip qualimap_v2.2.1.zip

进入文件夹运行下看看:

cd qualimap_v2.2.1
./qualimap

报错讲需要再装一些R包:

装好回来再次运行就可以进入图形界面了。

2 运行BAM file analysis

下面运行一下command-line模式下的BAM file QC, 需要sorted BAM file作为输入:

qualimap bamqc -bam ERR089819.bam -c

如果遇到可报错说RAM不足(RAM的储量,还够么!),在运行qualimap的时候可议加上参数:

qualimap --java-mem-size=1200M
qualimap bamqc -bam very_large_alignment.bam --java-mem-size=4G

BAM QC的可选参数:

-bam <arg> :输入的BAM

-c,--paint-chromosome-limits:在chart里对染色体边界著色

-gff,--feature-file <arg>:可选的Feature文件,GFF/GTF 或者 BED 格式

-os,--outside-stats:同时也报告之前加入的gff文件区域外的部分(如果没有用-gff参数则忽略该选项)

-nr <arg>:一个chunk的reads数,默认是1000(内存大可议任性)

-nt <arg>:线程数,默认是8

-outdir <arg> :输出HTML的文件夹

-outfile <arg>:输出pdf的文件名

-outformat <arg>:输出报告的格式 (PDF 或者 HTML, 默认的是HTML).

-sd,--skip-duplicated:加上这个参数以跳过有flag标记的duplicate alingments,如果没有放flag的话,按照qualimap自己估计进行处理

-sdmode,--skip-dup-mode <arg> :指定处理哪些duplicate alignments,

0 :只处理比对文件里被加了flag的(默认值)

1 :只处理qualimap估计的

2 :以上两种都处理

-hm <arg>:indel分析中homopolymer最小大小(默认是3)

-ip,--collect-overlap-pairs:统计overlaping的PE reads

示例报告:

QualiMap BAM report?

rawgit.com

3 RNA-seq BAM file QC

与普通的BAM QC差不多, 使用图形界面的话也可以(只是不好重复以及有些选项找不到):

qualimap rnaseq -bam kidney.bam -gtf human.64.gtf -outdir rnaseq_qc_results

-gtf <arg>:注释文件,Ensembl GTF格式.

-oc <arg>:counts的输出路径。

-outdir <arg>:HTML报告的输出文件夹

-outfile <arg>:输出pdf的文件名

-outformat <arg>:报告格式(pdf 或者 html(默认))

-p,--sequencing-protocol <arg>:Sequencing library protocol:

strand-specific-forward,

strand-specific-reverse or non-strand-specific(默认)

-pe,--paired:对paired end的数据加这个选项时,会计数fragment而不是reads

-s,--sorted 加了这个参数表示输入文件已经排序好了,否则会按照名称排序

示例报告:

QualiMap RNAseq report?

rawgit.com

4 其他功能

除此之外还有 Multisample的BAM QC, Counts QC,Clustering,Computing counts 等功能,有需要的话可议去Qualimap2的网站上继续探索哟。

Multisample的BAM QC:

qualimap multi-bamqc -i gh2ax_chip_seq.txt -outdir gh2ax_multibamqc

gh2ax_chip_seq.txt:

sample_1 sample_1_stats group_1
sample_2 sample_2_stats group_1
sample_3 sample_3_stats group_1
sample_4 sample_4_stats group_2
sample_5 sample_5_stats group_2
sample_6 sample_6_stats group_2

示例报告:

Qualimap Multisample report?

rawgit.com

参考来源:

A survey of best practices for RNA-seq data analysis(2016), Ana Conesa等

Evaluating next generation sequencing alignment data?

qualimap.bioinfo.cipf.es
图标

推荐阅读:
相关文章