至於大量數據的下載,我們可以點擊download下的manifest(圖中左起第二個藍色框框,點擊獲得一個文件,裡面記錄著你將要下載的數據信息),然後利用GDC Transfer Tool (gdc-client),在Terminal內輸入如下命令進行批量下載:
------------------------------------------------------------------
TCGA收錄的了很全面的癌症基因組數據,包括突變,拷貝數變異,mRNA表達,miRNA表達,甲基化數據等
這些數據可分為三個級別:
level-1: 原始的測序數據(fasta,fastq等)
level-2:比對好的bam文件
level-3:為經過處理及標準化的數據
(其中level1/2為controlled-access,level-3有部分是controlled-access,這一類型的需要向TCGA申請使用許可權)
level-1/2 比較糙,文件較大,若要下載需要使用官方提供的小工具:GDC Data Transfer Tool, 需要自己重新比對來call mutation, 或者提取count data做差異表達分析(懶人表示不怎麼用)
###最常用的為level3數據,文件較小,直接在網頁上下載就可以。
###目前主要有兩個網站可以下載TCGA level-3的數據:
>TCGA官網的data-portal: portal.gdc.cancer.gov
優點:數據最全,更新最快
缺點:每個樣本的數據都單獨儲存在一個文件中,如果要下載RNA表達量數據的話,可能同一種癌症需要下載好幾百個文件,並且需要排隊下載,有時候很慢很慢很慢
>Firehose伺服器:gdac.broadinstitute.org
優點:這裡的數據也來源於 portal.gdc.cancer.gov,經過了簡單的合併,將每種癌症相同類型的數據合併到了一個文件中(例如443個胃癌樣本的RNA表達量數據都合併到了一個文件中,非常適合用R進行後續的分析)
--------------------------------------------------------------------
###level-3的數據是仍需要一定的分析能力來提取感興趣的信息,
###如果你僅僅需要看感興趣的基因在某種癌症中的突變譜,表達量,或者甲基化情況,那麼以下三個在線可視化網站可以說是非常親民了:
1.>c-Bioportal: www.cbioportal.org
整合和簡化了包括TCGA,ICGC以及GEO等多個癌症基因組資料庫的內容,提供友好可視化的界面,可供下載。
主要展示基因的somatic 突變譜,拷貝數變化,mRNA&miRNA表達量變化,DNA甲基化以及蛋白質表達的情況,並結合患者的臨床資料,展示了KM生存曲線。
2.>OncoLnc: www.oncolnc.org
這是一個整合了TCGA的各種RNA數據和患者臨床數據,提供生存分析的網站,灰常簡單好用。
3.>MEXPRESS:mexpress.be/about
整合了TCGA中的DNA甲基化,表達量及臨床數據,主要用來探索甲基化,基因表達和臨床表型之間的關聯,看界面也很友好
推薦閱讀: