當前位置:學問君>學習教育>畢業論文>

淺析現階段高通量測序中的拼接問題論文

學問君 人氣:2.1W

摘要:近年來,隨着第二代測序技術的普及和第三代測序技術的逐步發展,高通量測序技術在實際研究中的應用越來越廣泛。高速率、高性價比是其主要優點。相對於傳統的桑格(Sanger)法測序來言,高通量測序得到的片段長度較爲短小,故如何拼接得到完整的序列一直是炙手可熱的研究方向。本文總結了現階段高通量測序中拼接問題的研究結果,針對現在流行的各種算法進行了簡單介紹。

淺析現階段高通量測序中的拼接問題論文

關鍵詞:高通量測序;reads 拼接;contigs 組裝;OLC、De brujin 圖

一、測序技術的發展過程和現狀[1]

(一)桑格法

桑格法又叫做雙脫氧鏈終止法,由Sanger在1977年提出。透過加入帶有放射標記的dd NTP(雙脫氧核苷酸)使DNA合成終止。再透過電泳,並使用放射自顯影技術讀出鹼基。此方法得到的片段較長,能達到1000bp左右。

(二)第二代測序技術

隨着科學技術的發展,傳統的桑格法已經不能滿足研究的需要。科學家們需要更快的速度、更高的通量以及更低廉的價格,於是第二代測序技術應運而生。其核心思想是邊合成邊測序。現在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三個平臺。第二代測序是現階段測序技術的主流,也是高通量測序的開始。

(三)第三代測序技術

第三代測序技術是指單分子測序技術。不需要經過PCR的過程即可測序,速度可以達到每秒十個鹼基。通量更大,讀長更短,是現階段測序技術的發展方向。

二、高通量測序中的拼接工作

(一)高通量測序所得片段的特點

高通量測序之後所得到的序列片段稱爲reads(讀取),其主要特點兩點。一是長度短,一般在200bp以 下,最長的454平臺能達到的長度也不過1000bp,因此需要進行 大量的拼接才能得到整條DNA序列。二是有部分重疊,由於測序位置具有隨機性,故各reads總會有一定的重疊,這些重疊是拼接工作的關鍵。

(二)拼接過程

整個拼接過程分爲兩步。第一步,考察reads的重複序列,並拼接成更長的片段,稱爲contigs(重疊羣),這一步稱爲reads的拼接;第二步,確定contigs之間的順序關係,並按此排列,形成稱爲scaffolds的序列,這一步叫做contigs的組裝。

三、Reads的`拼接

(一)拼接過程的難點

reads拼接過程中要克服的難點主 要有兩點,一是高通量測序得到的reads長度較短,故內含資訊較少,不易確認相對順序。二是遠程連接資訊(Long-range linking information)的不可靠性。 2這兩點制約着reads拼接過程的準確率。

(二)方法[3]

reads拼接過程中算法的基本要求是de novo(從頭測序),即不需要任何序列資訊即可對原料進行測序。由此衍生出兩種主流的算法:

OLC,即交疊-排列-共有序列算法(Overlap-layout-consensus),是一個比較傳統的算法,其基本思想爲根據reads間的重複部分,確定可能性的reads連接順序。

其步驟爲:構建交疊圖:對每兩個reads進行比對,計算它們的重疊度---排列reads:將reads進行排列,確定它們之間的相對位置,建立overlap圖---生成共有序列:透過多序列比對等方法,確立最後的contig.

OLC算法的計算量主要體現在交疊圖的構建,而高通量測序得到的海量短序列有大量的交疊,往往需要大量的運算時間。故OLC算法並不適合現在高通量測序的發展趨勢。現在某些拼接軟件,如Shorty、CABOG等仍在使用基於此的算法。雖然這些軟件針對OLC算法有一定的改進和優化,但其拼接速度和準確性仍受到限制。

brujin圖

基於De brujin圖(DBG)的算法是現在最流行的算法,許多常用的拼接軟件如Velvet、ABy SS等都在使用這種算法。其特點爲把基因序列的拼接問題轉化爲了數學上的圖論問題,大大提高了拼接效率。

(1)基本思想

reads中 連 續 的k個 鹼 基 稱 爲k -mer,作 爲DBG的節點,兩個k-mer如 果在同一read中 相鄰,則形成一條邊。故每個read都會對一些邊加權,最後形成一個含有節點、有權值的邊的DBG,由此生成最佳的contig.

(2)步驟

篩選reads:對reads進行檢測,去除掉可能錯誤的reads---確定k值:k的值直接影響速度和精度。 K值較大時,精度有所提高,但更容易受覆蓋率的影響。故應該根據覆蓋率、reads長度等確定合適的k值---處 理DBG:根 據 確 定 的k值,做 出DBG,同時完成化簡和修正---根據DBG,拼接成contig.

(3)優缺點

DBG算法在處理海量短reads的時候效果優秀,與現在測序技術的發展趨勢相匹配。然而,由於k-mer的長度較短,此方法受重複序列、測序錯誤的影響較大。

(三)不同拼接軟件的效果差異

不同的拼接軟件在reads拼接過程中表現爲三點:一是比起軟件來說,reads質量對拼接結果影響更大;二是與標準序列的接近度隨reads和拼接軟件的不同有很大改變;三是各軟件拼接的正確率差別很大,但與接近度的結果不一致。

四、Contigs的組裝

與reads的拼接相比,contigs的組裝的難度相對較小。這是因爲contigs的長度較reads長很多,所含資訊較多。故可以較爲準確的組裝成scaffold

(一)組裝過程的難點[4]

Contigs組 裝 過 程 中 的 難 點 主 要 有 二。一 是contigs中 含有大量的重複序列,不易確定contigs之間的相對順序;二是由於contigs由reads拼接而成,其中不 免 會 有 一 些 錯 誤,這 些 錯 誤 也 會 對contigs的組裝產生干擾。

(二)方法

Contigs組 裝的方法較reads拼 接而言較多,一般常用的有圖論法和光學圖譜法(Optical mapping)兩種。

1.圖論法[5]

圖論法是比較傳統的方法,與reads拼接有相似的地方。它以contigs作爲節點,由相連的讀取對(Linking reads pair)作爲邊,由此形成算圖。

其一般步驟爲:庫的構建:構建出含有所有reads的 庫---計算相連讀取對之 間的距離,並由此計算gap的長度---把長度放在邊上,作爲算圖的數據。

其理想的輸出結果是一條scaffold序列,對應一條染色體,包含以正確順序排 列 的contigs和contigs之間gap的長度。

2.光學圖譜法[6]

光學圖譜法是一種較爲新穎的方法。透過內切酶將DNA切斷,此時DNA的片段的譜表現出一種特殊的指紋或是識別碼的性質。利用光學方法追蹤此資訊得到相對位置,由此組裝成正確的scaffold.

主要步驟爲:將contigs放 置 在 光 學 圖 譜上---修正光學圖譜---做出contigs的連接圖,由此決定最佳的contigs連接順序。

光學圖譜法的組裝結果有着很高的覆蓋率,巧妙運用光學圖譜法可以獲得很高的成本效益。

有研究表明,當與454平臺獲得的實驗結果相結合的時候,光學圖譜法可以迅速、價廉的得到排列好的定向的contigs組,由此可以產生一個將近完整的基因組。

(三)發展方向

Contigs組裝過程的關鍵點 在於如何得到正確的連接順序。現階段此方面研究多集中在這一方向。

五、前景與展望

隨着生物學研究向微觀、向基因領域逐步延伸,高通量測序作爲獲得基因序列的主要方法,越來越受到重視,拼接技術也在不斷髮展。高通量測序的基因片段會變得海量且短小,應對此變化,拼接技術也會由確定“唯一的基因序列”向確定“最可能的基因序列”完成轉變。因此,新一代的拼接技術會在準確率、覆蓋率和速度上,作出超於現在拼接技術的改進。

參考文獻:

[1]Anderson MW, Schrijver I. Next Generation DNASequencing and the Future of Genomic Medicine.?Genes.2010;1(1):38-69. doi:10.3390/genes1010038.

[2]Salzberg SL, Phillippy AM, Zimin A, et al. GAGE: Acritical evaluation of genome assemblies and me Research. 2012;22 (3):557 -567. doi:10.1101/gr.131383.111.

[3]Deng X, Naccache SN, Ng T, et al. An ensemble strategythat significantly improves de novo assembly of microbialgenomes from metagenomic next -generation eic Acids Research. 2015;43 (7):e46. doi:10.1093/nar/gkv002.

[4]Latreille P, Norton S, Goldman BS, et al. Opticalmapping as a routine tool for bacterial genome Genomics. 2007;8:321. doi:10.1186/1471 -2164-8-321.

[5]Hunt M, Newbold C, Berriman M, Otto TD. Acomprehensive evaluation of assembly scaffolding me Biology. 2014;15 (3):R42. doi:10.1186/gb -2014 -15-3-r42.

[6]Nagarajan N, Read TD, Pop M. Scaffolding andvalidation of bacterial genome assemblies using opticalrestriction nformatics. 2008;24 (10):1229 .1093/bioinformatics/btn102.