NGS基礎:測序原始數據下載

生物或醫學中涉及高通量測序的論文,一般會將原始測序數據上傳到公開的資料庫,上傳方式見測序文章數據上傳找哪裡;並在文章末尾標明數據存儲位置和登錄號,如 The data from this study was deposited in NCBI Sequence Read Archive under accession SRA: SRP114962.

NCBI的SRA (Sequence Read Archive) 資料庫(ncbi.nlm.nih.gov/sra/) 是最常用的存儲測序數據的資料庫。目前SRA數據的組織方式分為下面4個層次:

  1. Studies–研究課題;
  2. Experiments–實驗設計;
  3. Runs–測序結果集;
  4. Samples–樣品信息。

進入SRA官網:ncbi.nlm.nih.gov/sra, Search框中輸入SRA編號(SRP114962),獲得如下圖的界面:

點擊第一個樣品即可查看其詳細信息。

當樣品比較多時,可以點擊Send results to Run selector(圖中畫圈的位置)進入篩選頁面。

從圖中可發現,測序平台是Illumina HiSeq 4000,5748個Runs,每個Run的名字、樣本名、測序類型(全基因組/外顯子組等)、tissue、treatment等。

在如此多的Runs中,假設我們想獲取其中兩個病人的化療前和化療後的外顯子組測序數據,觀察其化療前後究竟有哪些基因突變以及突變的頻率怎麼樣。數據來自於文章 腫瘤化療無效是對預先存在的突變的選擇還是誘發新突變,Cell給你答案。

5748個Runs,有116Page,怎麼找呢?

Facets下拉框中先勾選Assay Type,等待頁面相應後勾選wxs,即全外顯子組數據,等待頁面相應。

Facets下拉框中勾選Sample name,等待頁面相應後勾選ktn102ktn102兩個病人的分別四個樣本(四種treatment:pre、2cycleschemo、operative和blood),如圖。等待頁面相應。獲得Run編號(藍色框):SRR5908363、SRR5908362…

然後使用NCBI提供的工具SRAToolkit下載。

SRA toolkit trace.ncbi.nlm.nih.gov/, 根據伺服器操作系統類型下載對應的二進位編碼包,下載解壓放到環境變數即可使用。

使用NCBI提供的SRA-toolkit中的工具fastq-dump直接下載SRR文件,並轉換為FASTQ格式,--split-3參數表示如果是雙端測序就自動拆分,如果是單端不受影響。--gzip轉換fastq為壓縮文件,節省空間。

下載的數據集一般比較大,放入後台不中斷下載 (nohup cmd &)。

nohup fastq-dump -v --split-3 --gzip SRR5908360 &

nohup fastq-dump -v --split-3 --gzip SRR5908361 &nohup fastq-dump -v --split-3 --gzip SRR5908362 &nohup fastq-dump -v --split-3 --gzip SRR5908363 &

nohup fastq-dump -v --split-3 --gzip SRR5906250 &

nohup fastq-dump -v --split-3 --gzip SRR5906251 &nohup fastq-dump -v --split-3 --gzip SRR5906252 &nohup fastq-dump -v --split-3 --gzip SRR5906253 &

注意:如果數據量很大可能需要下載1-2天。數據下載完會在~/ncbi下面存在緩存的sra文件,記得定時清空。

Summary

按照上述步驟下載完畢後可看到很多個fastq.gz格式測序文件。

  • NGS基礎 - FASTQ格式解釋和質量評估
  • NGS基礎 - 高通量測序原理
  • NGS基礎 - 參考基因組和基因注釋文件
  • NGS基礎 - GTF/GFF文件格式解讀和轉換

推薦閱讀:

相关文章