新闻 > 正文

研究发现:人类基因组中或含有超过20%的非编码基因

2018-09-05 12:16:50 来源:生物谷

近日,一项刊登在国际杂志Nucleic Acids Research上的研究报告中,来自美国国家癌症研究中心的科学家们通过研究发现,高达20%的编码基因可能根本就无法进行编码,因为这些基因具有非编码或伪基因(即过时的编码基因)的特征,由此导致的人类基因组的缩小或许会对生物医学领域产生重要的影响,因为产生蛋白质的基因数量以及其身份对于科学家们研究包括癌症和心血管疾病在内的多种疾病都至关重要。

2003年科学家们完成了人类全基因组测序工作,研究人员发现,人类基因中实际上携带有2万个彼此分离的编码基因。研究人员对编码相关人类蛋白质组的基因进行了分析,对来自数据库GENCODE/Ensembl, RefSeq和UniProtKB中参考蛋白质组的详细对比分析后他们发现了22210个编码基因,但这些基因中仅有19446个基因出现在数据库中;而剩下的2764个基因似乎仅存在于一个或两个数据库的注释中,而这些基因几乎所有都可能是非编码或伪基因,实际上,这些基因连同另外1470个编码基因都无法向典型的蛋白质编码基因一样进化,也就是说,总共有4234个基因都不能编码产生蛋白质。

研究者Tress解释道,如今我们能够详细分析这些基因,而且有超过300个基因都被重新归类为非编码基因,而这些结果已经被GENCODE国际联合会在人类基因组中进行了全新注解。这项研究再次强调了科学家们对人类全基因组测序15年后人类细胞中真实基因数量的怀疑,尽管最新数据显示,编码人类蛋白质的基因数量超过了2万个,但研究人员表示,我们的研究证据指出,人类机体中或许仅有1.9万个编码基因,但研究人员目前并不清楚这1.9万个基因到底是哪些。

研究者David Juan说道,让我们非常不可思议的是,一些看似非常罕见的基因已经被大量研究了,而且有超过100个科学出版物都基于这样的假设认为这些基因能够产生蛋白质;本文研究结果表明,人类基因组可能仍然存在很多不确定性,后期研究人员仍然需要对人类蛋白质组进行大量研究,因为其对于医学领域非常重要。

原始出处:Federico Abascal, David Juan, Irwin Jungreis, et al. Loose ends: almost one in five human genes still have unresolved coding status. Nucleic Acids Research, 2018; 46 (14): 7070 DOI: 10.1093/nar/gky587

原标题:NAR:人类基因组中或含有超过20%的非编码基因

hr@yaochenwd.com.cn
010-59444760