最近科学家对重命名了多个人类基因,以避免被 Excel 自动纠正。这的确是将好事,我以前就受到过困扰,比如这次被改的SEPT1基因,我就遇到过好几次,由于处理数据过程中一般都会vcf文件,结果只要用excel打开,就自动变更成了9月1号,这不是玩我吗,现在改为 SEPTIN1,很合适。

大家也别担心,因为现在我们做组学研究,正在走向尽量少用这种基因名。

为什么?因为不合理啊。

————不合理的基因命名系统————

一个基因名,其实有多种命名系统。

——SYMBOL——

第一种是SYMBOL系统,就是大家常说的基因名gene name系统,这是一套非常原始非常落后的系统,就是大家常说的基因名。它的命名其实就是根据最早研究的命名的那个人的兴趣决定的,或者他当时关注到的点决定的。

比如有个基因叫BRCA1,因为在遗传性乳腺癌中发现,被叫做breast cancer 1,也就是乳腺癌基因1.类似的还有BRCA2

当时这只是因为当初观察到了它和乳腺癌有关。如果你关注的不是乳腺癌,就会有其他命名。在互联网不发达的时候,大家也没法沟通,于是各自命名。于是基因还有了别名,服不服气~

比如BRCA2基因,就有BRCC2, FACD, FAD, FAD1, FANCD, FANCD1, XRCC11这几种命名,它们代表同一个基因。你说要是做基因的人,会不会崩溃?

搜索引擎可不会自动等同,这就等于你如果只认识BRCA2,你可能错过FAD, FAD1, FANCD其他一系列研究,其实都是同一个基因。

所以后来还出现了official symbol,尽管看似大一统,其实依然受制于语义的问题。

事实上,这个基因,并不是局限在乳腺癌上。这是一个很重要的基因组维持基因,用于保障基因组稳定性的。

This gene encodes a 190 kD nuclear phosphoprotein that plays a role in maintaining genomic stability

它的功能可不是局限在乳腺癌上,在许多癌症,甚至非癌症中也有体现啊。既然是维持基因组稳定性的,那么如果基因组稳定性受到了破坏,并且该基因发生突变没来得及维持,所以就会引发后续的癌变之类的。

以至于现在数据库在标注基因名的时候,还要额外加注释,指明是DNA repair associated,累不累啊。

再比如Fox基因,名字是叉头框基因(forkhead box FOX)等等

这种命名可以说是严重取决于早期命名人的个人认知和经历,所以这种命名已经严重不适合当今的研究了。

假如当初有个人发现某基因和杠精有关,命名为杠精基因,后来发现错了,但是已经命名就麻烦了。

更别提这种命名会干扰研究人员,尤其是会让很多人默认了它和xx有关,这是不合理的。

所以,我们迫切需要一套新的命名系统。

于是就有了ENTREZID

———ENTREZID———

是生物学数据库NCBI的命名系统,适应互联网时代。

Entrez is a molecular biology database system that provides integrated access to nucleotide and protein sequence data, gene-centered and genomic mapping information, 3D structure data, PubMed MEDLINE, and more. The system is produced by the National Center for Biotechnology Information (NCBI) and is available via the Internet.

这套命名系统是纯数字的,比如GeneID: 675,就是BRCA2,这个命名的确是比较中性,管你三七二十一,按照发现顺序,以此排列。

所以现在不少分析软件都采用这种命名系统,毕竟这套系统中性,纯数字(除非迷信素质的人感觉不爽)

当然,这套系统也有个问题,就是难以区分物种。

大家知道,不同物种其实都有自己的基因,你用同一个名字表示,如果不表明物种的话,说不定就搞错了。

这就是大家说的同源基因概念之类的。

所以又有了一套新的系统,那就是ENSEMBL

————ENSEMBL—————

这套系统是伴随着ensembl出现的,是面对基因组时代,越来越多物种基因组出现的时候开始的新系统。

其命名方式更加科学

就是物种名+数字

比如ENSG00000139618,前面的ENSG表示人类基因,后面的数字表示具体的基因。

这个基因事实上就是BRCA2

而这个基因如果到了小鼠上呢,就变成了ENSMUSG00000041147

ENSMUSG是小鼠的意思。

可见这套系统可以成功的区分不同物种的差异,因此事实上现在这套系统正在逐步的取得更多的认可。

————未来系统————

其实未来情况下,可能基因命名系统还会革新。

毕竟如ENSG、ENSMUSG这种命名物种的方法,会累成狗。

自然界物种太多了,动物百万种,植物百万种,微生物更是可能有万亿种,按照这种命名,那到时候不得累死啊。

所以未来肯定会有一套更好的系统,但是这套系统长得什么样,我还想不出,但是肯定更加的中性,更加的合理。

相关文章