基因組測序過程中進行haplotype phasing的意義是什麼？

01-12

或者說解析出來的結果的應用場景有哪些。也許可以分為構建參考序列和個體重測序兩種情況來考慮。
可以想像的是發現一些recurrent recombination hot spot，知道一些單倍體塊（block）的起訖點，但是接下來的應用呢？嘗試將單倍體塊排列組合和個體表型差異或者疾病對應起來，從而做到「降維」？如果真的可以的話，求文章標題舉例。

扯開來談，可以扯很多。隨便扯點我目前覺得有價值的場景。

1. 蛋白突變與功能相關研究。比如研究病毒株衣殼蛋白上突變的規律。用NGS外顯子捕獲之類技術做的話，缺點之一就是缺少phasing信息。

2. 祖源分析。這塊的應用主要是法醫，學術上主要做群體進化或者比較基因組學。

3. Linkage analysis。一般是做帶族譜的遺傳病相關分析使用。也就是題主提到的「降維」，降維是機器學習里一類projection方法，這裡準確點應該就是指提高統計檢驗的檢驗勢(statistical power)。隨便搜搜相關paper就會有的。比如：Genetic Linkage Analysis in the age of Whole Genome Sequencing

補一張常見SNP晶元這塊分析的大致流程，測序其實差不多：

(非本人授權，禁止商業使用)

有人跑過來問我，說上面箭頭什麼的是啥意思，我說你們都太嚴肅了，為什麼呢，因為這個生信流程圖啊，這裡面箭頭不一定是什麼遞推的關係，大部分情況下，其實和遊樂場里箭頭是一個意思！就是：這裡要是沒玩出什麼花樣的話，還可以去下面地方接著玩！

這種遊樂場，一般你要是停下來看兩眼廣告牌的話，立刻就會有一大堆衣衫襤褸胸口別著「專業生信分析」類似牌子的兄弟繞著你唱蓮花落，帶頭的會搓著手皮笑肉不笑的打招呼：「小帥哥這麼酷，要不要進來來玩兩下？」

有分教：GWAS很有趣，出錢來玩玩～

摘自「http://www.nature.com/nrg/journal/v12/n10/full/nrg3054.html」