作者:Flora
十分之一的人类基因会表达一种特殊的蛋白——转录因子(TFs),通过与基因组结合读取相应区域DNA 信息。这一结合是调控基因表达与否的关键。4月初,《PNAS》期刊最新发表一篇文章,揭示了一种新的计算工具,可以完美量化基因组中这一“蛋白-DNA”的结合。
越来越多的研究表明,转录因子与DNA结合位点的突变与疾病有关。然而现有的测序技术并不能解析这些位点信息。现在,哥伦比亚大学的科学家们开发出一种计算工具,能够解析基因组中最难翻译的部分。有了这个工具,科学家们可以更深入地了解DNA指导生长发育、衰老、疾病等所有的生命过程。
“即便是简单的生物,依然有大量基因信息因为技术的局限而未能被破译。” 哥伦比亚大学Mortimer B. Zuckerman心理大脑行为研究所的首席研究员Richard Mann表示,“让我们开心的是,新算法能够扫描数百万行的遗传密码,甚至于能够识别出最微弱的信号,从而更完整地绘制DNA编码的蓝图。”
1、Hox基因
DNA中隐藏着太多的秘密,其中一个谜团涉及一个特别普遍的基因,即Hox基因——机体主要的“建筑师”,参与生命早期的多个重要发育、分化过程,例如胚胎发育过程中头部、四肢的定位。
Richard Mann表示:“Hox基因通过表达一种转录因子,与DNA序列结合,从而‘打开’或者‘关闭’大量基因。”他认为,这一过程类似于按照正确的顺序调控成千上万个开关。
但是,数十年针对Hox基因的研究揭示了一个悖论:尽管每一个Hox基因都对应着不同的生长特征,但是Hox表达的转录因子都倾向于与同一组更容易识别的DNA序列结合。
2015年,Richard Mann和团队发现,Hox转录因子也与其他位点结合——只是在所谓的“低亲和位点”更为谨慎。科学家们认为,低亲和位点是Hox转录因子驱动基因表达与否的关键。问题的关键在于如何从基因组中破译这些位点。
2、新研究
为了应对这一挑战,Richard Mann团队与哥伦比亚大学生物科学与系统生物学系教授、遗传学活动模型专家Harmen Bussemaker课题组合作,开发了一种名为SELEX-seq的基因测序方法,用于系统描述Hox所有的结合位点。但是这一方法存在局限性,即需要一次次测序相同的DNA片段。而且,关键的低亲和结合位点的信息依然是个谜。
“类似于谷歌翻译一段文字,即便重复多次,最终只有10%的单词被成功翻译。” Richard Mann解释道。
为了克服局限,Harmen Bussemaker团队研发出一种新型的算法,能够首次解释SELEX-seq实验中所有DNA序列的行为。他们将这一算法称之为“No Read Left Behind”(NRLB)。
3、意义
“简单地说,NRLB可以覆盖所有的结合位点(从高到低),灵敏度和准确度都远超已有的技术。在这一基础上,我们希望开发更为深入的生物和计算模型,从而有助于回答基因组更为复杂的问题。” Harmen Bussemaker解释道。
“例如精神分裂症、帕金森氏症和自闭症等疾病已经被映射到特定的DNA区域,但是这些区域似乎没有明确的功能。” Richard Mann表示说,“现在,利用NRLB,科学家们可以拼凑出与这些疾病相关区域结合的转录因子图谱,未来我们或许可以找到靶向这些因子的方法,从而有效降低疾病风险。”
参考资料:1)Scientists build better way to decode the genome