本文总结了现阶段高通量测序中拼接问题的研究结果,针对现在流行的各种算法进行了简单介绍。大家在相关论文写作时,可以参考这篇题目为“浅析现阶段高通量测序中的拼接问题”的基因工程论文。
原标题:高通量测序中拼接问题的研究现状
摘要:近年来,随着第二代测序技术的普及和第三代测序技术的逐步发展,高通量测序技术在实际研究中的应用越来越广泛。高速率、高性价比是其主要优点。相对于传统的桑格(Sanger)法测序来言,高通量测序得到的片段长度较为短小,故如何拼接得到完整的序列一直是炙手可热的研究方向。本文总结了现阶段高通量测序中拼接问题的研究结果,针对现在流行的各种算法进行了简单介绍。
关键词:高通量测序;reads 拼接;contigs 组装;OLC、De brujin 图
一、测序技术的发展过程和现状[1]
(一)桑格法
桑格法又叫做双脱氧链终止法,由Sanger在1977年提出。通过加入带有放射标记的dd NTP(双脱氧核苷酸)使DNA合成终止。再通过电泳,并使用放射自显影技术读出碱基。此方法得到的片段较长,能达到1000bp左右。
(二)第二代测序技术
随着科学技术的发展,传统的桑格法已经不能满足研究的需要。科学家们需要更快的速度、更高的通量以及更低廉的价格,于是第二代测序技术应运而生。其核心思想是边合成边测序。现在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三个平台。第二代测序是现阶段测序技术的主流,也是高通量测序的开始。
(三)第三代测序技术
第三代测序技术是指单分子测序技术。不需要经过PCR的过程即可测序,速度可以达到每秒十个碱基。通量更大,读长更短,是现阶段测序技术的发展方向。
二、高通量测序中的拼接工作
(一)高通量测序所得片段的特点
高通量测序之后所得到的序列片段称为reads(读取),其主要特点两点。一是长度短,一般在200bp以 下,最长的454平台能达到的长度也不过1000bp,因此需要进行 大量的拼接才能得到整条DNA序列。二是有部分重叠,由于测序位置具有随机性,故各reads总会有一定的重叠,这些重叠是拼接工作的关键。
(二)拼接过程
整个拼接过程分为两步。第一步,考察reads的重复序列,并拼接成更长的片段,称为contigs(重叠群),这一步称为reads的拼接;第二步,确定contigs之间的顺序关系,并按此排列,形成称为scaffolds的序列,这一步叫做contigs的组装。
三、Reads的拼接
(一)拼接过程的难点
reads拼接过程中要克服的难点主 要有两点,一是高通量测序得到的reads长度较短,故内含信息较少,不易确认相对顺序。二是远程连接信息(Long-range linking information)的不可靠性。 2这两点制约着reads拼接过程的准确率。
(二)方法[3]
reads拼接过程中算法的基本要求是de novo(从头测序),即不需要任何序列信息即可对原料进行测序。由此衍生出两种主流的算法:
1.OLC
OLC,即交叠-排列-共有序列算法(Overlap-layout-consensus),是一个比较传统的算法,其基本思想为根据reads间的重复部分,确定可能性的reads连接顺序。
其步骤为:构建交叠图:对每两个reads进行比对,计算它们的重叠度---排列reads:将reads进行排列,确定它们之间的相对位置,建立overlap图---生成共有序列:通过多序列比对等方法,确立最后的contig.
OLC算法的计算量主要体现在交叠图的构建,而高通量测序得到的海量短序列有大量的交叠,往往需要大量的运算时间。故OLC算法并不适合现在高通量测序的发展趋势。现在某些拼接软件,如Shorty、CABOG等仍在使用基于此的算法。虽然这些软件针对OLC算法有一定的改进和优化,但其拼接速度和准确性仍受到限制。
2.De brujin图
基于De brujin图(DBG)的算法是现在最流行的算法,许多常用的拼接软件如Velvet、ABy SS等都在使用这种算法。其特点为把基因序列的拼接问题转化为了数学上的图论问题,大大提高了拼接效率。
(1)基本思想
reads中 连 续 的k个 碱 基 称 为k -mer,作 为DBG的节点,两个k-mer如 果在同一read中 相邻,则形成一条边。故每个read都会对一些边加权,最后形成一个含有节点、有权值的边的DBG,由此生成最佳的contig.