理论教育 全基因组测序技术-疾病研究的革命性进步

全基因组测序技术-疾病研究的革命性进步

时间:2023-11-04 理论教育 版权反馈
【摘要】:测序技术是基因组学研究的基础和核心技术,是对DNA分子的核苷酸排列顺序的测定。(三)全基因组测序全基因组测序技术的出现对医学领域来说是一次革命性的进步,已经成为疾病研究、临床诊断中重要的手段。通过全基因组测序获得碱基全序列,便于进行全面、精确的分析,破解其包含的信息,加深对疾病发生机制的了解,有针对性地制定相应的应对办法,目前,主要应用于癌症、传染性疾病和遗传性疾病的致病机理的研究方面。

全基因组测序技术-疾病研究的革命性进步

测序技术是基因组学研究的基础和核心技术,是对DNA分子的核苷酸排列顺序的测定。从20世纪70年代发明的双脱氧链终止法(又名Sanger测序法)到单分子实时测序,测序技术的发展经历了三代,第二代测序技术将生命科学研究带入到了基因组学时代,测序技术的不断进步促进了基因组学研究的发展。

(一)下一代测序技术

第二代和第三代测序技术统称为下一代测序技术(Next Generation Sequencing,NGS),主要特点就是高通量、实时、单分子测序,可以一次就完成几十万到几百万条DNA分子的测序。

第二代测序技术的典型代表是454测序技术平台的焦磷酸测序技术,其原理为经过一系列的反应,释放出荧光信号,根据捕捉到的荧光信号及其强度,读出相应的碱基及其数量。

第三代测序技术近年来发展最快、最热门、最有发展前景的技术之一是纳米孔测序技术,原理是不同的核苷酸空间构象不同,当它们一个接一个地通过纳米孔时,所引起的电流变化程度也不同,可以实现实时测序。

(二)基因组测序策略

虽然测序技术发展迅速,测序读长和通量有了很大的提高,但目前的技术水平还是不能对基因组直接进行测序,只能先将基因组分解,分别对分解后的小片段进行测序。目前基因组测序主要采用逐步克隆法(Clone by Clone)和全基因组鸟枪法(Whole Genome Shotgun)测序两种策略,且前者有向后者发展的趋势。

1.逐步克隆法 本方法在人类基因组计划中发挥了重要作用,它依赖于遗传图谱和物理图谱。首先将基因组分解成小片段,构建BAC文库,通过FISH或STS技术,将克隆在染色体上定位,依此对克隆进行排序,通过简单的组装工作完成全基因组测序。本方法的优点是准确、可靠,但由于构建遗传图谱和物理图谱非常困难,且耗时耗力,有明显的局限性。

2.全基因组鸟枪法 也称全基因组“霰弹”法测序,已逐渐成为基因组测序的主导策略,本方法不需要绘制物理图谱,而是将基因组DNA打成小片段,随机构建基因组文库,将这些小片段克隆到测序载体中进行测序,根据重叠区整合小片段,利用高性能计算机拼接出基因组DNA分子。全基因组鸟枪法的优点是经济、快速、高效,但对拼接方法和高性能计算设备要求非常高。

(三)全基因组测序

全基因组测序技术的出现对医学领域来说是一次革命性的进步,已经成为疾病研究、临床诊断中重要的手段。通过全基因组测序获得碱基全序列,便于进行全面、精确的分析,破解其包含的信息,加深对疾病发生机制的了解,有针对性地制定相应的应对办法,目前,主要应用于癌症、传染性疾病和遗传性疾病的致病机理的研究方面。(www.daowen.com)

全基因组测序的数据分析流程包括质量控制(Quality control)、比对(Mapping)、突变检测(Call variant)、突变注释(Annotation)四个方面。

(四)序列的组装

因为基因组测序是分段进行的,测序完成后需要将这些片段进行组装、拼接,最终获得完整的DNA序列,这是完成序列测定的关键步骤,组装主要依靠计算机软件来完成。

1.碱基读取 从测序仪上得到的并不是真正的核酸序列,而是荧光信号经处理后产生的带状图或峰图文件,这就需要将碱基识别出来,组成核酸序列,同时评估序列中的碱基可信度,这个识别过程叫做碱基读取(Base Calling)。

不使用荧光染料终止剂,经过四次反应,每次反应加入一种双脱氧核苷酸(ddNTP)作为链终止剂,得到的测序图是带状图;使用不同荧光标记的ddNTP作为终止剂,根据荧光区别四种碱基,经过一次反应便可完成测序,这样得到的是峰图文件。峰图文件是目前最常见的测序图。

对测序图的分析和解读依赖于相应的软件,如ABI公司的Sequencing Analysis和Sequence Scanner、Chromas、DNAstar等。1995年由Phil Green实验室开发的Phred软件碱基识别精度高、读长长且能给出每个碱基的质量评估值(用Phred Quality值来衡量,表征错误率的情况,值越高表明出错的可能性越低),它与组装软件Phrap相互配合,堪称是最完美的Base Calling软件。

2.拼接 序列拼接是根据原始的测序序列(read)还原原始序列的过程,一般包括组装(contig)、构建(scaffold)和补洞(gap)等几个步骤,

Contig是每个碱基都被准确定义的一段序列,组装基于read之间的重叠(overlap),将read两两比对,选择高分的两条read进行合并,重复这个过程,直到不能合并。顺序和方向都确定的一系列contig称为Scaffold,Scaffold的拼接主要依靠的是read之间的成对关系,但contig之间存在着未知缺口序列(gap),这可能是因为缺少测序序列的覆盖或由于重复序列导致的组装contig的过程被忽略而造成的,前者可以用两端已知的序列为引物按照基因组步移(Genome walking)的方法补洞,后者可以通过调用read的成对关系将gap序列补出。

用于序列拼接的主要软件是Phred-phrap-Consed系统,Phred(测序器)是一种碱基识别系统(base-caller),同时估计测序错误率,Phrap(组装器)根据Phred的结果,从头组装短序列;Phrap组装的序列由Consed(校对器)编辑、整合人工校对结果。

3.拼接过程中重复序列的影响 重复序列(repeats)对拼接的速度和精度影响很大,一方面引起拼接错误,另一方面也影响序列拼接的完整性,因此如何识别和处理重复序列成为拼接的最主要难题。处理的一般步骤是在拼接前将重复序列屏蔽掉,以提高序列拼接的精确度和降低错误率,拼接完成之后,将read再还原回去。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈