作者:独具药眼
1977年,应该称得上是基因测序技术的元年。在这一年,Sanger发明双脱氧链终止法,即Sanger测序法;Maxam和Gilbert发明化学降解测序技术,即Maxam-Gilbert化学降解测序法。40年来,基因测序领域已经发生了天翻地覆的变化,新技术、新平台以及新需求层出不穷。那么接下来呢,基因测序将走向哪里?
首先,我们先简单回顾一下,基因测序的过去。到1985年,几乎所有的DNA测序都采用Sanger测序法。在Sanger测序法中,反应物用放射性同位素核苷酸进行标记,在丙烯酰胺凝胶板上进行分离后,用放射自显影法进行检测。到2000年,四色荧光法(Four-colour-fluorescence method)成了基因测序的主流技术,在四色荧光法中,反应物用链终止核苷酸类似物进行标记,借助毛细管电泳进行分离,通过一种荧光染料进行检测,如图1所示。到2010年,基因测序则朝着多元化的方向迅速扩张。如今,基因测序已经由目的来驱动,比如,在肿瘤和遗传医学的应用上,测量人类基因组上的每一个突变基因的碱基序列,准确和全面成为必须的要求;而在物种鉴别上,只需检出特定的基因,时间和效率成为了首要的考虑要素。
图1 DNA荧光显色图谱
1、海 量 需 求
基因测序技术的进步打开了海量需求的闸门。眼下,测序技术正从精尖实验室的“深宅大院”飞向寻常百姓家。一个显著变化的指标便是测序的价格,从2000年的数亿美元降到2015年的1500美元左右,真可谓“一路狂跌”,如图2所示。但是可以肯定的是,测序的价格还会进一步下降,达到寻常百姓能够承受的区间。
测序技术更好、更快、更便宜的趋势无可阻挡,这大大满足了遗传学家、医药工作者、考古学家以及相关研究者们的需求。基因序列包含了太多生命的“奥秘”,研究者们已经不满足于个体的DNA序列,他们希望得到族群的DNA序列、不同组织单个细胞在各种状态下的基因状态、mRNA序列等。同时,考古学家希望通过基因测序追溯人类起源;生态学家、微生物学家则希望得到所有物种的遗传信息。
显然,激增的需求诞生了海量的基因信息数据,当前面临的瓶颈之一便是这些数据的筛选与解读。计算机科学以及大数据技术的日趋成熟,尤其是图文识别技术的提高,预计不久的将来,基因组序列将会与生物学功能建立对应关系。
2、多 元 化 应 用
基因测序的普及将会极大地改变医药行业的样貌。比如,在孕妇的产前筛查中,有一个项目就是针对21号染色体的数目,通过采集孕妇外周血中的少量的胎儿游离细胞来进行检测,如果出现3条21号染色体这一异常状况,将会导致唐氏综合征(Down’s syndrome)的出现。目前,全球范围内每年有400-600万孕妇参加这一项目,据预测,十年后这一数字将超过1500万。未来在基础应用上,要求基因测序做到无创、高灵敏度以及便捷操作。
图2 基因测序价格大幅下降
在肿瘤领域,近年来大量的资本流入液体活检(liquid biopsies)技术的开发。液体活检,是利用高速测序仪来测定人体血液中漂浮的DNA片段。当一个人的体内有外源的DNA时,比如婴儿、肿瘤或移植器官,这种检测就能提供信息。它有望将费时耗力的肿瘤检查变为日常筛查,随着肿瘤靶向治疗的进步,液体活检技术可以尽可能早地给出治疗方案的建议。
除了应用于临床,基因测序设备也能够为流行病学家们所用。在野外对空气、水源、食物、动物以及微生物进行基因测序,这能够收集大量的野生生物的样本,以便鉴定出那些能够在人际间传播并引发疾病的病毒。与此同时,公共卫生专家希望对城市污水中的微生物进行全部测序,以快速判断疫情;海洋生物学家希望借助系统性的元基因组研究(systematic metagenomic studies)来监测海洋的健康状态。
除此以外,DNA测序技术在刑侦、个人健康管理等方面也会有诸多的应用。
3、道 阻 且 长
40多年来,将细胞分子数据应用于实际的最大障碍是信息缺乏,但基因测序技术的成熟正改变这一局面,目前最大的问题已经转移到如何获得元数据(meta-informational one)。
就拿基因组数据的临床应用来说,为了不同的临床目的,我们可以快速对获得的体液进行基因测序。但是只有将数百万人多年医疗史的海量信息有机整合起来,才能构建出元信息。元信息有助于我们确定何时忽略这些数据以及何时采取行动。这就要求建立一个庞大的“信息共享”机构,把分子和临床数据叠加到数百万人的微生物基因组序列上。目前正在进行这些努力的机构包括英国The UK Biobank resource 和The US All of Us Research Program。
基因测序技术的不断进步,应用范围的不断普及,其带来惊喜是必然的。事实上,可能几十年后,目前世界上大部分存储于硬盘或云端的数据,将存储在DNA分子内,也许以后DNA测序的主要驱动力将由目前的对生命与健康的“解密”,转换为对海量数据的存储需求。