從頭測序工具大全,從此測序研究不外包

基因組從頭測序可以不依賴已知的參考基因序列,便可對某物種的全基因組序列進行測定,然後藉助生物信息學的方法,對所得序列進行拼接、組裝,從而獲得該物種的全基因組序列圖譜。

隨著高通量測序技術的發展,測序成本和時間的大幅度降低,全基因組從頭測序已成為快速了解物種的一個重要途徑,尤其是一些與人類生存息息相關的物種。

水稻、玉米、家蠶、馬鈴薯等基因組圖譜繪製的完成,標誌著可以從基因組水平對這些物種的生長、發育、進化、起源等重大問題進行研究,從而對基礎生物學、分子育種、遺傳基因改良等方面的研究起到巨大的推動作用,目前已有多篇CNS論文用了從頭測序技術。

基因組從頭測序流程如下,有些步驟和全基因組測序相同。

基因組組裝

高通量測序產生大量或長或短的DNA讀數,這些數據需要通過組裝來產生完整的基因組序列。基因組組裝一般有基於OLC(先重疊後擴展)和基於De Brujin圖(DBG)兩種組裝演算法。

OLC演算法適用於reads讀長較大的測序數據,如一代和三代的reads。DBG演算法適用於reads比較短的測序數據,二代數據。但其難以對重複序列區域進行分析,更依賴於建庫。

目前應用最廣泛的基因組組裝軟體是SOAPdenovo。

組裝評估

這是評估重新組裝和單個重疊群質量以及可靠性的軟體。當一個轉錄組或基因組組裝完成後,通常我們會使用N50和基因的數量來大概的評估組裝的結果,但是這些指標只是側面評估的方法,並不能直接作為衡量的標準,因此,BUSCO等評估組裝完整性的軟體就應運而生。

BUSCO抽樣了數百個基因組,從中選擇單拷貝直系同源>90%的基因作為直系同源基因集。值得注意的是,這個90%的閾值說明了一個事實:即使是保守的基因也有可能在某些家系中遺失,同樣也可能會出現不完整的基因注釋和少量的基因複製。

按照BUSCO文檔給出的說明,基因集用5個CPUs,基因組用12個CPUs,用人的參考基因組(3.1G)和哺乳動物庫的4104個BUSCO來評估,要6天15個小時,比對後生動物庫是21個小時;用人的基因組(20398個蛋白)和哺乳動物庫來評估,只要20分鐘,如果比對的是後生動物庫,就只要3分鐘。

重組

短讀測序數據的從頭裝配通常導致一組碎片化的基因組序列(重疊群)。對這些重疊群(基架)進行排序和定位代表了向基因組整理邁出的第一步。

總體而言,SGA,SOPRA和SSPACE是目前重組最佳的工具。然而,即便是用這3個,結果的質量也高度依賴於所讀圖譜和基因組的複雜性。

序列可視化檢查

由於現在的大規模基因組測序還有局限,在產生的短子序列重建全基因組序列後,不可避免地需要人工檢查數據一致性。這時,序列的可視化就尤為重要。這個領域的可視化工具現在主要關注本地序列錯誤,難以對裝配進行高級檢查。

這方面做的最好的工具是ABySS-Explorer,強調全局的裝配結構,同時也集成了對序列長度等顯著數據特徵的分析。

基因組注釋

基因組注釋包括幾個連續的步驟,包括編碼和非編碼序列的位置,基因預測,調控元件的鑒定和功能注釋。

Orione是基於Galaxy的框架由公開可用的研究軟體和專門設計的流水線組成,用於構建複雜的,可重複的新一代測序微生物學數據分析。微生物學研究人員無需安裝軟體或編程即可進行自定義分析和數據處理,Orione為微生物學和宏基因組學中的數據密集型計算分析提供了新的機會。

系統發育分析

現代測序技術讓生物學家可以收集整個分子證據來重建進化樹。ExaBayes可以對任意大小的數據集進行貝葉斯樹推理。ExaBayes的顯著特點是能夠高效地處理大量的數據集,對包含數千個分區的數據集進行高效分析的修改。

基因比較

隨著我們生成測序數據的能力不斷提高,數據分析正取代數據生成,成為基因組研究中的限速步驟。一個好的基因組數據可視化工具可以讓研究人員能夠探索,解釋和操作他們的數據,並在某些情況下執行即時計算,來促進分析任務。

這類軟體可以用於分析從頭測序裝配的圖形方法,並閱讀比對,還能用於基因組瀏覽和比較基因組學。

Circos是可視化工具,用圓形來表示基因組間隔之間的關係,可以顯示大量的基因組重排數據。該軟體提供了一種可擴展的手段來說明基因組位置之間的關係,並設計為允許在圖像中靈活和容易地重新排列元素。它還包含幾個工具來幫助分析,過濾和格式化數據。即使是Circos的在線版本,也能做出很漂亮的圖。


推薦閱讀:

TAG:研究方法 | 全基因組測序 | DNA測序 |