標籤:

使用MutMap快速定位突變基因:原理篇

緣起

在我的課題中,我們使用了BSA結合全基因組重測序的方法尋找候選基因。本人乃生信小白一枚,可是對生物信息學非常感興趣,一直想學一些生信分析。索性就以此為切入點,開始了自學生信的漫漫長路。從最簡單的Linux操作,到生信軟體的安裝和使用,又學了一點Perl、Python和R的語法,花費了近兩個月的課餘時間(主要是晚上10:00之後),終於跑通了MutMap的Pepline。

生信分析不是我們課題組的強項,以前更沒有人做過類似的項目,沒有人指導,只能靠自己慢慢摸索,中間數次想要放棄。一路走來,摸爬滾打,走了好多彎路,所幸堅持了下來,取得了階段性勝利,深感自學生信的不易與艱辛。現在把我的學習成果做一個簡單的回顧和總結,希望對剛跳入BSA分析大坑的小白有所幫助。

初步計劃本教程分為三個部分:原理篇,流程篇和實踐篇。此為第一部分。


在傳統的遺傳學研究中,尋找突變基因最經典的的方法就是圖位克隆,通過尋找和突變表型緊密連鎖的Marker,一步步縮小突變基因在染色體上的區域,縮小到足夠小的時候,再進行突變基因及突變位點的排查和確認。圖位克隆需要較大的分離群體,少則幾百,多則幾千甚至上萬,還需尋找大量的marker,費時又費力。

隨著測序技術的快速發展,測序成本越來越低。利用BSA(bulk-segregant analysis,分離群體分組分析)的原理,結合高通量全基因組重測序技術,以基因組中的SNP和Indel為marker,通過比對和計算SNP的頻率,可以尋找和突變表型緊密連鎖的染色體區域,並最終確認突變位點。其中,在植物中應用最經典的一個例子就是MutMap,並在此基礎上發展出了MutMap+,MutMap-gap和QTL-seq,以應對不同分離群體的基因定位需求。

什麼是BSA

說到底,MutMap及類似的方法都是利用了BSA的原理。那什麼是BSA呢?

BSA(分離體分組混合分析法或混合分組分析法,又稱 集團分離分析法,Bulked Segregant Analysis)分析法首次由Michlmore等提出並成功地在萵苣中篩選出與目的基因相連鎖的標記。該方法首先從一對具有目標基因的表型差異的親本所產生的任何一種分離群體中,根據目標基因的表型分別選取一定數量的植株,構成 2個亞群或集團。將每群的 DNA等量混合,形成兩個相對性狀 的「基因池」(gene pool),然後用合適的分子標記對兩個基因池進行分析,在兩群間表現多態性的分子標記遺傳上與目標性狀基因座位相連鎖。在獲得了與目標基因相連鎖的分子標記以後,可以利用某一作圖群體進行分析以便進一步檢測所得分子標記與目標性狀基因的連鎖程度,以及其在某已知分子圖譜中或染色體上的位置,這樣才能完成真正意義上的對基因的標記定位。由於建池時使用了特定的分離群體,並且在分組時僅對目標性狀進行選擇,這樣可以保證其他性狀的遺傳背景基本相同,兩個基因池之間理論上就應主要在目標基因區段存在差異,因此兩基因池又被稱為近等基因池,這就排除了環境及人為因素的影響,使研究結果更為準確可靠¨。BSA法克服了很多作物難以得到近等基因系的限制,並且比近等基因系法省時省力,是一種非常實用的基因標記定位的方法,應用非常廣泛。

可與BSA相結合用於基因定位的分子標記有多種,常用的分子標記有 RFLP(限制性片段長度多態性,Restriction Fragment Length Polymorphism),RAPD(隨機擴增多態性 DNA,Random Amplified Polymorphism DNA),AFLP (擴增片段長度多態性,Amplified Fragment Length Polymorphism),SSR(簡單重複序列,Simple Sequence Repeats)SSR等。——百度百科

在傳統的圖位克隆中,我們一般先利用BSA原理進行粗定位,尋找和突變表型連鎖的marker,再在附近設計新的marker,利用作圖群體進行精細定位,一步步縮小和突變表型連鎖的染色體區段,直到鑒定出突變基因。MutMap的原理和圖位克隆本質上是一樣的,只不過把我們常規使用的marker換成了SNP,把通過PCR和酶切進行多態性鑒定,換成了用重測序的方法直接對SNP的多態性進行分析。

MutMap的原理

MutMap比較適合對EMS誘變的隱性突變基因進行分析。通過EMS誘變和自交得到純合體後,將突變體和其親本回交得到F1,F1自交得到的F2後代會出現表型的分離,得到野生型表型群體和突變體表型群體。對這兩個群體的DNA分別進行等量混合,得到野生型DNA混池和突變體DNA混池。將兩個混池分別進行DNA測序,利用MutMap pepline進行數據分析,計算SNP在突變體混池和野生型混池出現的頻率,即可得到和突變表型連鎖的染色體區段和可能的突變位點。

如果突變為隱性,根據遺傳學定律,在F2群體中,大多數的SNP會以野生型類型:突變體類型=1:1的比例進行分離,而導致突變體表型的SNP,在突變體混池中是純合的。因此,當我們對測序結果進行分析後,在突變體混池中,只有causal SNP及其緊密連鎖的SNP會出現100%的突變體類型,並且離causal SNP越近突變體類型SNP的純合度越高,而其他的無關位點,突變體型SNP和野生型SNP的比例接近1:1。

為了方便分析,作者定義了一個參數SNP-index,即突變體類型的SNP所佔的比例,那麼在突變位點,SNP-index為1,越往兩側,SNP-index越小,並最終接近於0.5。對SNP-index進行滑窗作圖後,就會出現一個峰,該處就是連鎖區域。在附近進行候選基因的篩選和排查,可以比較容易找到突變基因。

MutMap的流程

推薦閱讀:

生物信息學100個基礎問題 —— 第3題 Illumina測序技術細節探究
生信猿如何用好Mac高效工作
DeepVariant: 用卷積神經網路進行DNA序列變異位點檢測
開悟時刻
Linux入門1:遠程登錄伺服器

TAG:生物信息學 |