標籤:

生物信息學100個基礎問題 —— 第13題 從雙序列比對開始學起

生物信息學100個基礎問題 —— 第13題 從雙序列比對開始學起

來自專欄 高通量測序技術

Hello 大家好!

經過我們之前的12個問題,我們對Illumina 測序的原理,測序的儲存模式,測序數據的質控已經有了一個比較清楚的認識。那麼我們今天就開始用接下來的若干次提問來學習與比對有關的知識。

比對其實應該對應的單詞是alignment,但往往特指低通量的序列之間的比較。比如10條序列,進行多序列比對就是我們常說的 multiple alignment問題;如果是2條序列的比對,我們經常稱其為pairwise alignment.

回貼通常對應的單詞應該是mapping,一般指高通量的數據去尋找基因組的位置。比如我們進行測序以後,有10M對read pair,要去尋找他們在基因組上的位置,這個時候就是一個典型的mapping問題。

alignment與mapping其實是密切相關的概念,所有的mapping軟體其實都是從低通量的辦法逐步改進而得到的。

今天我們的問題是,請各位學習一下北京大學高歌老師的《生物信息學:導論與方法》中的雙序列比對(pairwise alignment)的相關演算法。主要是Needleman-Wunsch演算法(全局比對)和Smith-Waterman演算法(局部比對)相關的內容,然後回答下面的問題。

每個視頻長度都不長,希望大家認真看完!今天的內容是以後的基礎,如果學不好,以後的高樓蓋得再高,也有轟然倒塌的那一天!

課程視頻的鏈接如下:

1. 生物信息學:導論與方法(北京大學)-序列比對中的基本概念

2. 生物信息學:導論與方法(北京大學)-利用動態規划進行全局序列比對

3. 生物信息學:導論與方法(北京大學)-從全局比對到局部比對

今天的問題:

如果我們假設比對的 scoring matrix 如下圖1所示,同時gap的罰分d= -5

圖1 序列比對的scoring matrix

假設我們的 seq1 = AAGT,seq2=AGCT;那麼我們進行雙序列比對,需要填寫下面的表格。

表1 雙序列比對需要填寫的表格

1. 使用Needleman-Wunsch演算法(全局比對),那麼表1應該怎麼填寫?最終的比對結果是什麼?

2. 使用Smith-Waterman演算法(局部比對),那麼表1應該怎麼填寫?最終的比對結果是什麼?

3. 請思考,為什麼有的時候需要全局比對,有的時候需要局部比對?


推薦閱讀:

【好書分享】生信技能學習指南
生物信息學100個基礎問題 —— 第20題 SAM/BAM中的其它重要信息列
生物信息百Jia軟體(二):fastp
生信猿如何用好Mac高效工作
RNA-seq原始數據質控後,是否要合併PE和SE的比對結果|《解螺旋技術交流圈》精華第1期

TAG:生物信息學 |