TCGA的界面分類非常清晰,不同的項目,不同癌種,不同數據格式的資料都在目錄欄一幕瞭然,非常清晰!少量數據可以直接在官網按進「購物車」進行下載(實際上有免費資源的),對於需要下載大量數據的,TCGA有官方提供的下載小工具GDC Data Transfer Tool,可以在windows下成一個應用軟體,根據圖形界面的提示操作即可,非常方便。同時也有很多開源的萬能網友寫的代碼,下載+分析一起自動化完成的,再次不多敘述。

TCGA官方提供的下載小工具:GDC Data Transfer Tool, gdc.cancer.gov/access-d (真心建議,各類軟體官網自帶的教程和說明是最清晰好用的,雖然是英文,帶靜下心來好好看吧少走很多彎路)

至於大量數據的下載,我們可以點擊download下的manifest(圖中左起第二個藍色框框,點擊獲得一個文件,裡面記錄著你將要下載的數據信息),然後利用GDC Transfer Tool (gdc-client),在Terminal內輸入如下命令進行批量下載:

./gdc-client download -m manifest_xxx.txt

------------------------------------------------------------------

TCGA收錄的了很全面的癌症基因組數據,包括突變,拷貝數變異,mRNA表達,miRNA表達,甲基化數據等

這些數據可分為三個級別:

    • level-1: 原始的測序數據(fasta,fastq等)
    • level-2:比對好的bam文件
    • level-3:為經過處理及標準化的數據

(其中level1/2為controlled-access,level-3有部分是controlled-access,這一類型的需要向TCGA申請使用許可權)

level-1/2 比較糙,文件較大,若要下載需要使用官方提供的小工具:GDC Data Transfer Tool, 需要自己重新比對來call mutation, 或者提取count data做差異表達分析(懶人表示不怎麼用)

###最常用的為level3數據,文件較小,直接在網頁上下載就可以。

###目前主要有兩個網站可以下載TCGA level-3的數據:

    • >TCGA官網的data-portal: portal.gdc.cancer.gov

優點:數據最全,更新最快

缺點:每個樣本的數據都單獨儲存在一個文件中,如果要下載RNA表達量數據的話,可能同一種癌症需要下載好幾百個文件,並且需要排隊下載,有時候很慢很慢很慢

    • >Firehose伺服器:gdac.broadinstitute.org

優點:這裡的數據也來源於 portal.gdc.cancer.gov,經過了簡單的合併,將每種癌症相同類型的數據合併到了一個文件中(例如443個胃癌樣本的RNA表達量數據都合併到了一個文件中,非常適合用R進行後續的分析)

--------------------------------------------------------------------

###level-3的數據是仍需要一定的分析能力來提取感興趣的信息,

###如果你僅僅需要看感興趣的基因在某種癌症中的突變譜,表達量,或者甲基化情況,那麼以下三個在線可視化網站可以說是非常親民了:

1.>c-Bioportal: www.cbioportal.org

整合和簡化了包括TCGA,ICGC以及GEO等多個癌症基因組資料庫的內容,提供友好可視化的界面,可供下載。

主要展示基因的somatic 突變譜,拷貝數變化,mRNA&miRNA表達量變化,DNA甲基化以及蛋白質表達的情況,並結合患者的臨牀資料,展示了KM生存曲線。

2.>OncoLnc: www.oncolnc.org

這是一個整合了TCGA的各種RNA數據和患者臨牀數據,提供生存分析的網站,灰常簡單好用。

3.>MEXPRESS:mexpress.be/about

整合了TCGA中的DNA甲基化,表達量及臨牀數據,主要用來探索甲基化,基因表達和臨牀表型之間的關聯,看界面也很友好


推薦閱讀:
相關文章