生信小白:肉哥,在第1期的介绍中,你讲了VCF文件,但我们只知道第17号染色体的43057065 上的一个T碱基突变成了G。除了这些信息我还想知道:这个位点是在某个基因上吗?这个突变有没有改变基因的功能呢?有没有影响转录和翻译?世界上有没有其他正常人的这个位点也变异了呢?如果有,是哪些人种呢?又是什么样的病例呢?……
西克孚肉:你想知道的太多了,但我有庞大「字典」库可以来为你解释。有了基因的变异信息后,我们可以去查字典(资料库),看看究竟这些词语表达什么意思,并标记下来。这个过程就叫做注释。
Q:什么是变异注释
西克孚肉:
测序的过程产生了大量的遗传变异数据,其中只有少数变异具有功能影响。
变异注释的过程是使用各种变异信息的资料库对检出的变异进行注释,以便于对变异进一步筛选和解读。
注释可以大致分为:突变频率注释、突变相关的疾病注释和预测软体结果注释。注释可以大致分为:突变频率注释、突变相关的疾病注释和预测软体结果注释。
人群频率资料库是遗传病诊断的重要参考工具,可以用于获取某变异在大规模人群中的发生频率。
ExAC
外显子组整合资料库,该资料库旨在汇总和协调各种大规模测序项目的外显子组测序数据,并为更广泛的科学界提供摘要数据。
dbSNP
1000 Genomes Project
千人基因组资料库目标是发现在人群中频率大于1%的变异位点,对来自不同人群的大量样本进行测序,识别到变异位点,包括了欧洲、美洲、亚洲的很多个不同的人种。
gnomAD
Broad研究所支持建立、各国研究人员共同协作建立的一个基因组突变频率资料库,目的是汇集和协调不同级别的大规模测序项目,包括全外显子与全基因组数据。目前有125,748个外显子数据和15,708个基因组数据。
OMIM
在线人类孟德尔遗传信息资料库,包含了遗传性的基因疾病信息与表型信息。20世纪60年代由Victor Mckusick教授主编的《Mendelian inheritance in Man》,他一共从1966年到1998年发表了12本书,主要是他自己在收集。1985年创建联机形式,于是有了OMIM。
ClinVar
2013年创立,整合了dbSNP、dbVar、Pubmed、OMIM等多个资料库,将变异、临床表型、实证数据以及功能注解与分析等四个方面的信息,通过专家评审,逐步形成遗传变异-临床表型相关的资料库。
HGMD
人类基因突变资料库,目前包括240,269个变异,覆盖9976个基因。收集的突变包含了SNP、InDel、CNV、SV、基因重组等。相比ClinVar,HGMD包含了更多的基因和变异,并且每个季度进行更新,提供了最新、最全的变异信息。
通过生物信息学相关演算法(如SIFT,polyphen等),对变异进行功能危害性预测。预测和通路分析有助于发现潜在的新基因和位点。
值得注意的是,危害性预测值高的位点并不意味著一定致病。
生信小白:一个人类基因组包含近3500000个SNV突变和1000个拷贝数变异,其中有20000-25000个突变是落在蛋白编码区,在这2万多个突变当中有接近一半的突变改变了氨基酸,但仅有50-100个发生了蛋白截断或功能缺失。手动检查每个位点是非常耗时且不切实际!
西克孚肉:所以现在有很多注释工具,常用的有SnpEff、ANNOVAR 和 VEP等,这些工具是用演算法的方式来注解这些突变的。
生信小白:原来你经常提的VEP是一个注释软体。
西克孚肉:对的,VEP是由国际三大资料库之一的Ensembl提供,基于perl语言。VEP可用于变异分析、注释和对编码、非编码区域的基因变异进行排序。
生信小白:有了工具就方便多了。但我注释了好多信息,眼睛不够用了啊。
别急,注释只是大海捞针的第一步,下次我们讲讲怎么捞针。
往期回顾:
第0期 生信分析是个什么玩意儿?
第1期 FASTQ! BAM! VCF! 傻傻分不清楚?
第2期 从FASTQ到BAM经历了什么?
第3期 变异类型知多少