基因組測序過程中進行haplotype phasing的意義是什麼?

或者說解析出來的結果的應用場景有哪些。也許可以分為構建參考序列和個體重測序兩種情況來考慮。

可以想像的是發現一些recurrent recombination hot spot,知道一些單倍體塊(block)的起訖點,但是接下來的應用呢?嘗試將單倍體塊排列組合和個體表型差異或者疾病對應起來,從而做到「降維」?如果真的可以的話,求文章標題舉例。


扯開來談,可以扯很多。隨便扯點我目前覺得有價值的場景。

1. 蛋白突變與功能相關研究。比如研究病毒株衣殼蛋白上突變的規律。用NGS外顯子捕獲之類技術做的話,缺點之一就是缺少phasing信息。

2. 祖源分析。這塊的應用主要是法醫,學術上主要做群體進化或者比較基因組學。

3. Linkage analysis。一般是做帶族譜的遺傳病相關分析使用。也就是題主提到的「降維」,降維是機器學習里一類projection方法,這裡準確點應該就是指提高統計檢驗的檢驗勢(statistical power)。隨便搜搜相關paper就會有的。比如:Genetic Linkage Analysis in the age of Whole Genome Sequencing

補一張常見SNP晶元這塊分析的大致流程,測序其實差不多:

(非本人授權,禁止商業使用)

有人跑過來問我,說上面箭頭什麼的是啥意思,我說你們都太嚴肅了,為什麼呢,因為這個生信流程圖啊,這裡面箭頭不一定是什麼遞推的關係,大部分情況下,其實和遊樂場里箭頭是一個意思!就是:這裡要是沒玩出什麼花樣的話,還可以去下面地方接著玩!

這種遊樂場,一般你要是停下來看兩眼廣告牌的話,立刻就會有一大堆衣衫襤褸胸口別著「專業生信分析」類似牌子的兄弟繞著你唱蓮花落,帶頭的會搓著手皮笑肉不笑的打招呼:「小帥哥這麼酷,要不要進來來玩兩下?」

有分教:GWAS很有趣,出錢來玩玩~


摘自「http://www.nature.com/nrg/journal/v12/n10/full/nrg3054.html」


推薦閱讀:

這個世界上有哪些東西是妥協之後的產物?
從生物學和進化論角度來看,人類為什麼會喜歡飲酒?

TAG:進化 | DNA測序 | 生物信息學 | PacBio | ONT |