GWAS研究中樣本數量和結果真實有效性之間的關係是怎樣的?
比如我想尋找一種罕見體質(假設為以牙齒鬆動錯覺,記憶力及方向感低下,泌尿系統慢性咽炎,骨骼纖細,形體消瘦等為特徵)的一個或若干決定基因,同時找到了相應的兩個此種體質特徵譜重合率異常高的人。那麼通過全基因組測序或CNV晶元等手段,我是否有理由期待通過尋找這兩個人所共有的,而其他某一類相對健康人群幾乎沒有的基因或染色體結構變異,包括SNP位點,將目標相關聯變異鎖定在一個較小的範圍內?
如果不能的話,其理論上的硬傷在哪裡?或者說相應理論依據稱為?綜述題目包括?當然典型的GWAS研究用到的實驗和對照數量成千上萬,且可能經過第二輪驗證集篩選。這樣做的必要性是否包括組內個體異質性較大以及癥狀譜重疊率不夠高,或者疾病的癥狀數量較少?您可以從外部的角度全盤評論一下當今學術界對GWAS或其他複雜遺傳疾病研究手段的認可程度,以及基於測序或晶元手段的利弊,以及提出更先進的手段和思路。 以下是有點不太相關的問題:以及測序方面如果綜合利用超長DNA單分子酶切位點成像,PacBio長片段測序,和普通短片段二代測序的完全de novo組裝是否會帶來大的優越性? 以及複雜結構變異是否仍缺少有效的描述和比較手段?單倍體解析是否仍相對是一塊死角(這裡好像不太相關)?
----------補充---------------------------------------------看了Tang Boyun的回答之後,猜測巨大樣本量的好處也許是取到足夠低的P值,從而在經過多重檢驗校正以後仍然有顯著性。另外關於多重檢驗校正的合理性是否存在爭論呢?
GWAS原理部分可以參考Fisher"s exact test,把鏈接里的例子中,男人/女人替換成有病/沒病,節食替換成SNP/CNV,給出的p值表示SNP與疾病如果是完全獨立的,那麼由隨機分布導致的odd ratio比現在更顯著的概率。1e-8的p值可能看起來很顯著,但考慮到人類的SNP數量可能在千萬級,綜合Multiple comparisons problem的校正的話,那麼這個p值一點都不顯著。這就是一個由數據得出結論的純統計問題,說不上什麼硬傷,花精力啃下多重檢驗校正和假陽性率的統計資料。人類的GWAS熱潮已過了,要說有什麼效果的話,就是砸了錢打了不少水漂,得到的結果相對投入來講,寥寥。農業上GWAS現在很熱,原因一方面取樣比人簡單,性狀也容易標準化,且大多隻當作一個育種篩選的分子marker,很少再繼續研究功能的。
要做SNP的話,技術有很多,主要劃分是考慮通量與成本。測序做SNP主要是resequencing做新SNP發現這塊。二代是主要手段,因為成本。三代的優勢在於,當需要考慮phasing信息,即數kb片段內的SNP位點連鎖信息時,是唯一的選擇。resequencing是resequencing,de novo是de novo,這是兩個問題,de novo一律都是選片段長的效果更好,當然考慮成本的話,大家都懂。
做複雜的結構變異的話,在不同的尺度上有不同的技術,二代理論上都可以做,但實際上在每個特定尺度下,都不是最好的選擇。做拷貝數變異的話,那麼最好的技術,是OncoScanHD(晶元)上使用的倒置探針技術,線性範圍可以到50倍。簡單的串聯重複到數kb內的變異,三代優勢項目。數十kb到兆b級的,最佳技術是Bionano Irys光學圖譜系統,再大的話,手段就更多了。
單倍型解析主要依賴的是高質量的SNP資料庫,程序演算法之類的話,考慮性能和通量其實也就那幾個可以選。「巨大樣本量的好處也許是取到足夠低的P值」,我猜這並不是 @Tang Boyun 的本意。「取到足夠低的P值」本身不是目的,目的是「檢測到統計上可信的效應」。
我覺得這部分屬於Power Analysis的範疇:檢測一個效應時,為了達到一定的可信度(比如說用P值來度量可信度),如果隨機干擾越大,效應越小,需要的樣本量就越大。需要多大的樣本是可以通過公式估算的。
GWAS研究中隨機干擾往往很大。可能的干擾包括遺傳背景的不同,環境效應的不同等等。如果題主所說的疾病/體質有人研究過遺傳力/遺傳參數,可以對這個隨機干擾的大小有個初步的估計。
針對樓主的例子,我好奇地問一句。假如世界上只有兩個人名字叫做「就我們倆」,然後全世界只有他們兩個得了某種叫做「很少見的病」的病,樓主敢相信這種病是由於這個名字造成的嗎?這裡討論的並不是「名字究竟會不會致病」,而是「一個統計上極高的關聯」究竟能夠代表什麼。不請自來,作為一名基因檢測的產品經理,主要從事基因健康產品方面的開發工作,比如二型糖尿病、乳腺癌以及阿爾茨海默病等,當然也有個性特質類的產品,比如皮膚精準美容相關的產品(不要吐槽。。。碳雲智能也在開發這方面產品。。。),所以平時也閱讀了大量GWAS相關的文獻,而且這也是我們尋找相關SNP位點的主要資源之一。回到題注的問題,我覺得這本質上可以抽象為一個統計推斷的問題。假如我真的從這兩個人裡面找到了若干SNP位點,這些SNP位點只在這兩個病人裡面存在,而在普通健康人裡面不存在。那麼我能否從現在這個只有兩個數量的樣本來對總體(可以理解為無限大人群,總體特徵符合正態分布)做出假設推斷。從統計學的角度來看,假設檢驗的功效和樣本量是存在正相關性的,而且有具體計算公式可以計算(請自行百度。。)。題注的這個樣本數太少了,誤差會相當大,所以做出來的推斷會相當不靠譜,所以這個推斷是沒有意義的。
上圖一張,gwas適用於common variant common disease,罕見的單基因病不是它能解決的。
對於罕見性狀,或者稱孟德爾疾病,傳統的遺傳流行病學的研究方法有家系連鎖分析等,現在可用全基因組測序或全外顯子組測序研究。後兩者不需要很多樣本量。你可以看看最近的文獻,新英格蘭上好像有。
推薦閱讀:
※作為一名對生命科學的興趣被逐漸耗盡的生物學學生,前路該何去何從?
※生物信息學就業前景和生物信息學研究工作者的就業方向?
※Google 的 Quantum Computing Playground 可以用來做什麼?
※傳統生物專業的碩士生,怎麼通過自學轉行到生物信息學領域?
※有哪些生物信息方面大數據的可視化案例?請列舉。