我之前做毕设的时候是关于NHX基因的,植物体内的钠离子氢离子逆转运蛋白,这蛋白肯定在所有的植物里面都有,因为它所行使的功能无可替代,但是我用它做关键词在NCBI上面搜索到的条目并不多,只有一百多个物种里面被明确发表含有这个基因!

但是令我疑惑的是,在很多已经被发表的进行了全基因组测序的物种里面居然没有这个基因??比如说,烟草!我的问题来了,烟草体内肯是有的,只是NCBI里面没有被发表,但是它既然被全基因组测序了,稍微进行一些基因预测,同源对比什么的,就可以得到三万多基因,只是没有一个个经过实验的验证罢了,难道说NCBI上面的gene这个类别下面所列出的基因只能是经过实验克隆得出,然后单独测序的基因吗?


谢邀~题主这句「稍微进行一些基因预测,同源对比什么的,就可以得到三万多基因」似乎说的有点太轻巧了。生物信息学的预测是比较不靠谱的,这种预测的有的没的结果放到NCBI上其实际意义本身也不是很大吧。一个资料库,数据质量是很重要的,我知道有个临床基因组医学的资料库,好像是叫ClinVar,大家都可以往上面提交数据,但是如果只有你一个人提交且没有人验证过,那么该条数据为1星,有其他人验证认可了就是2星,有专家验证认可了就是3星,只有那种绝大多少人都认同的有指导意义的才是4星。目前大多数基因组应该做的都是草图,非模式生物的话很少有人重复去做,数据本身缺乏重复验证,而从这些草图中用不太靠谱的生物信息学预测出来的基因最多只能给1星,这对其他人的参考意义不是很大。

再说你提到的这个NHX基因,我不了解植物,对这方面完全不懂,但烟草应该是植物里研究的比较早比较多的物种,即使这个基因的蛋白不好提纯也没办法克隆,但mRNA测序应该是可以做到的,既然NCBI的烟草中没有这个基因,你可以看看是不是烟草中有替代这个基因功能的其他基因呢?


虽然我并不是做基因功能研究的,对于NCBI Gene不是很了解,但是,我对基因组测序略有了解,于是不请自答。。。

全基因组测序后,基因组序列会被提交到NCBI Genome中,但是"Gene"这个资料库中不一定会增加三万个基因。理论上Gene中可以包含预测的序列 (请戳ftp://ftp.ncbi.nih.gov/pub/factsheets/Factsheet_Gene.pdf),理论上我们又得到了一些基因的序列,但是,是否预测的基因序列会被提交,就因人而异了。有的基因组测序的或是出发点可能并不是研究基因的具体功能,而涉及野生动物保育等等,比如金雕(golden eagle)的基因组,在NCBI Gene中只能找到线粒体上的基因注释(序列组装后预测的基因,并没有对单个基因分别测序),在基因组中预测的基因序列则没有被提交。再有,基因预测可以说是很复杂的工作。仅仅利用生物信息的一些方法,准确预测基因结构(外显子,内含子,可变剪接,非编码区等等)尤其对于非模式生物是很困难的,除了序列比对,还涉及建模等等。可能烟草的情况会好一些吧。

因此,NCBI Gene不全是单独测序得出的基因;它并不能代表某个物种所含有的全部基因。
就得挨个克隆,表达蛋白吧


GeneBank资料库的数据就像一个大熔炉,数据上传没有太大限制,所以里面的大多数基因序列并没有经过实验验证。至于你说的「进行基因预测,同源比对预测就可以得到这个基因」的说法,我不能认同。就目前的基因预测方法和软体而言,局限性还是太大了,所以出现假阴性和假阳性的结果实在是太正常不过了(特别是真核生物)。对于基因预测而言,我还是倾向于EST或者RNAseq数据或者同源蛋白数据进行训练,然后再进行预测的方法。
用个拟南芥(Arabidopsis thaliana)AtNHX1基因的氨基酸序列:

&>gi|84029366|sp|Q68KI4.2|NHX1_ARATH RecName: Full=Sodium/hydrogen exchanger 1; AltName: Full=Na(+)/H(+) exchanger 1; Short=NHE-1

MLDSLVSKLPSLSTSDHASVVALNLFVALLCACIVLGHLLEENRWMNESITALLIGLGTGVTILLISKGKSSHLLVFSEDLFFIYLLPPIIFNAGFQVKKKQFFRNFVTIMLFGAVGTIISCTIISLGVTQFFKKLDIGTFDLGDYLAIGAIFAATDSVCTLQVLNQDETPLLYSLVFGEGVVNDATSVVVFNAIQSFDLTHLNHEAAFHLLGNFLYLFLLSTLLGAATGLISAYVIKKLYFGRHSTDREVALMMLMAYLSYMLAELFDLSGILTVFFCGIVMSHYTWHNVTESSRITTKHTFATLSFLAETFIFLYVGMDALDIDKWRSVSDTPGTSIAVSSILMGLVMVGRAAFVFPLSFLSNLAKKNQSEKINFNMQVVIWWSGLMRGAVSMALAYNKFTRAGHTDVRGNAIMITSTITVCLFSTVVFGMLTKPLISYLLPHQNATTSMLSDDNTPKSIHIPLLDQDSFIEPSGNHNVPRPDSIRGFLTRPTRTVHYYWRQFDDSFMRPVFGGRGFVPFVPGSPTERNPPDLSKA

去BLAST普通烟草(Nicotiana tabacum),结果:

没有。


你需要根据你的测序数据,做出点成果,发表到高水准期刊,然后被很多人引用,被重复很多遍,ncbi才会收录你的数据。。。
推荐阅读:
相关文章