生信小白:肉哥,在第1期的介紹中,你講了VCF文件,但我們只知道第17號染色體的43057065 上的一個T鹼基突變成了G。除了這些信息我還想知道:這個位點是在某個基因上嗎?這個突變有沒有改變基因的功能呢?有沒有影響轉錄和翻譯?世界上有沒有其他正常人的這個位點也變異了呢?如果有,是哪些人種呢?又是什麼樣的病例呢?……

(NEJM Illustrated Glossary)

西克孚肉:你想知道的太多了,但我有龐大「字典」庫可以來為你解釋。有了基因的變異信息後,我們可以去查字典(資料庫),看看究竟這些詞語表達什麼意思,並標記下來。這個過程就叫做注釋。

《水經注》:對《水經》的註解

Q:什麼是變異注釋

西克孚肉:

測序的過程產生了大量的遺傳變異數據,其中只有少數變異具有功能影響。

變異注釋的過程是使用各種變異信息的資料庫對檢出的變異進行注釋,以便於對變異進一步篩選和解讀。

注釋可以大致分為:突變頻率注釋、突變相關的疾病注釋和預測軟體結果注釋。注釋可以大致分為:突變頻率注釋、突變相關的疾病注釋和預測軟體結果注釋。

突變頻率注釋

人群頻率資料庫是遺傳病診斷的重要參考工具,可以用於獲取某變異在大規模人群中的發生頻率。

ExAC

外顯子組整合資料庫,該資料庫旨在匯總和協調各種大規模測序項目的外顯子組測序數據,並為更廣泛的科學界提供摘要數據。

dbSNP

NCBI下的一個很重要的資料庫,由NCBI與人類基因組研究所(National Human Genome Research Institute)合作建立的,它是關於單核苷酸變異、插入刪除多態性的資源庫,包含了來自任何生物體的核苷酸序列。

1000 Genomes Project

千人基因組資料庫目標是發現在人群中頻率大於1%的變異位點,對來自不同人群的大量樣本進行測序,識別到變異位點,包括了歐洲、美洲、亞洲的很多個不同的人種。

gnomAD

Broad研究所支持建立、各國研究人員共同協作建立的一個基因組突變頻率資料庫,目的是彙集和協調不同級別的大規模測序項目,包括全外顯子與全基因組數據。目前有125,748個外顯子數據和15,708個基因組數據。

突變相關的疾病注釋

OMIM

在線人類孟德爾遺傳信息資料庫,包含了遺傳性的基因疾病信息與表型信息。20世紀60年代由Victor Mckusick教授主編的《Mendelian inheritance in Man》,他一共從1966年到1998年發表了12本書,主要是他自己在收集。1985年創建聯機形式,於是有了OMIM。

ClinVar

2013年創立,整合了dbSNP、dbVar、Pubmed、OMIM等多個資料庫,將變異、臨床表型、實證數據以及功能註解與分析等四個方面的信息,通過專家評審,逐步形成遺傳變異-臨床表型相關的資料庫。

HGMD

人類基因突變資料庫,目前包括240,269個變異,覆蓋9976個基因。收集的突變包含了SNP、InDel、CNV、SV、基因重組等。相比ClinVar,HGMD包含了更多的基因和變異,並且每個季度進行更新,提供了最新、最全的變異信息。

預測軟體結果注釋

通過生物信息學相關演算法(如SIFT,polyphen等),對變異進行功能危害性預測。預測和通路分析有助於發現潛在的新基因和位點。

值得注意的是,危害性預測值高的位點並不意味著一定致病。

生信小白:一個人類基因組包含近3500000個SNV突變和1000個拷貝數變異,其中有20000-25000個突變是落在蛋白編碼區,在這2萬多個突變當中有接近一半的突變改變了氨基酸,但僅有50-100個發生了蛋白截斷或功能缺失。手動檢查每個位點是非常耗時且不切實際!

西克孚肉:所以現在有很多注釋工具,常用的有SnpEff、ANNOVAR 和 VEP等,這些工具是用演算法的方式來註解這些突變的。

生信小白:原來你經常提的VEP是一個注釋軟體。

西克孚肉:對的,VEP是由國際三大資料庫之一的Ensembl提供,基於perl語言。VEP可用於變異分析、注釋和對編碼、非編碼區域的基因變異進行排序。

生信小白:有了工具就方便多了。但我注釋了好多信息,眼睛不夠用了啊。

別急,注釋只是大海撈針的第一步,下次我們講講怎麼撈針。

往期回顧:

第0期 生信分析是個什麼玩意兒?

第1期 FASTQ! BAM! VCF! 傻傻分不清楚?

第2期 從FASTQ到BAM經歷了什麼?

第3期 變異類型知多少


推薦閱讀:
相关文章