測過23andme的來,祖源分析有比這更混血的么?!
還有比這更混血的么?測過23andme的來,祖源分析有比我更純的沒有?! 這裡某人99.8%!!!!
來一個國內版的,獨家啊,也是23andme的數據分析出來的。
這個只是利用SNP進行多類分類的準確率估計,把它當成混血什麼的,可以省省了。
-----------------------------------------------分割線-----------------------------------------------------
EDIT: 上面這個是我把它想簡單了,評論里 @陳鋼 提供的鏈接里的資料有23me詳細的演算法思路。看完23me整個的演算法流程以後,我覺得對自己幫助很大,在不少類似的問題上,可以提供一個很好的借鑒思路。這裡我整理下,希望對其他有機器學習基礎的讀者有幫助。
我一開始看到題主思路時,覺得只是一個簡單的多類分類器問題,提供的數據只是多類分類的概率表示,但事實證明,23me在這裡做的還是很科學的。它的做法簡述如下:
- 將SNP按照對應的染色體區域,每隔一定距離,進行分箱,構建一個多類分類器,該分類器負責預測該區域的起源預測。
- 利用連鎖信息,在相鄰染色體區域上,對1得到的分類結果利用HMM進行polish
- 歸併所有多類分類器結果,統計整體的染色體起源信息。
我一開始構想的,以單個多類分類器解決該問題的缺陷有以下幾點:
- 給出的概率,只能代表樣本與某類總體的接近程度,無法做出進一步的生物學解釋。
- 對缺失值會很敏感。過QC的高密度SNP晶元的Call Rate只能保證&>90%(參考SNP6.0,約90W)
23me的生信流程里,2的想法很巧妙,充分利用了連鎖信息,同時可以使結果更穩健,在有直系親屬數據的情況下可以進一步作HMM的profile來改進結果。但如果只是要模仿23me,則刨去步驟2亦可,步驟1與3比較簡單,可以快速實現。
步驟2的可能做法是,在1的分類結果上,以染色體為單位,查詢已有樣本數據,找最接近的那簇人群中該染色體的結果,train HMM,過程應該很類似給蛋白家族建HMM profile或者三代測序里的Quiver糾錯。不請自來。
測的不是23andme,而是國內的一家基因檢測(23魔方,選擇它的原因是性價比超級高。)
但我比題主更 「混血」。
不匿了,直接上檢測結果吧:
這樣說吧,這個報告剛拿到有懷疑,畢竟就我所知,我父親母親往上三輩並沒有韓國人。我懷疑是不是出現了錯誤。
本來我想要求他們再測一遍,但我奶奶看完琢磨了半天,告訴我,她媽媽好像是朝鮮族。
恩……朝鮮族……韓國血統。
沒毛病……怪不得我的眼睛又細又長,而且不大,總之韓國風很濃。
我覺得我還是韓國血統佔了20%,並不是北朝鮮……(呵呵,不接受任何反駁)
至於苗族血統(佔比23%),雖然我爸媽戶口本上都是漢族,我也是漢族,但我並沒什麼疑問。我清楚的知道我姥爺的母親是苗族。
我漢族血統只佔45%,但高考並沒有加分。
然後關於Y染色體遷徙的部分,就不明覺厲了。
這個祖源分析的基因檢測大家就不要做了,除非你不是中國人。
我這麼說是有原因的。
因為國內這兩家公司(就是這兩家最近降價到499的公司)的儀器和演算法都是從美國23買過來的,沒有能力自己從頭設計。這就帶來一個大大的問題,就是資料庫的矛盾。
美國作為一個移民大國,自然對進行祖源分析有一定的道理。所以他們在研發這個項目的時候在美國採集了幾百萬個樣本來作為他們的基因資料庫。然而那個時候,在美國的亞裔最多的是日韓兩國,而不是華人。
問題就在這裡,以美國資料庫為基礎,進行我國的祖源分析,只會發現不管你怎麼檢測,都會在自己的基因中發現你好像有韓國和日本的祖先。
這不就奇怪了....如果是韓國和日本的人去測檢測出了中國人的基因,那麼還說得過去,畢竟幾百年前我國疆域那麼大。
好了,以上。
speculative view
這個不會太准,因為這關係到一個如何建立基準的問題。如果要準的話,就要找到一個100%血統的中國人,而這個人根本不存在。所謂的中國人也是幾千年來在這土地上生長的各種族混血而來的
你們選的是哪種View?Speculative, Standard還是Conservative?
我也不請自來。
不是混血,但是混了多民族。那個印度怎麼來的不知道啊哈哈。
先來個23andme導入Wegene的。
我偷懶,就Wegene的好了。
那個中華民族裡0.51%的其他是個藏族。我也不清楚我怎麼有藏族的。印度的也是很神奇。不了解,不評論。
我姥爺是山東蓬萊人;我姥姥是吉林蛟河人,但是戶口本寫的籍貫是遼寧省蓋縣,她們家基因非常強,我太姥爺活到99,我姥姥的兄弟姐妹沒有90歲之前沒的,我姥姥今年86,沒什麼病,我覺得應該給我姥姥測測基因;奶奶遼寧,具體不了解。爺爺遼寧蓋州,滿族,鑲黃旗;我出生於吉林長春
嗯23andme
一共十種,作為一個成都人
沒想到最多的是東北血統...然而身高並不高以前一直覺得自己是漢族,沒有想到啊...我就看看不說話
不要太在意。實際上很少有那個基因或者特徵(比如SNP)是百分之百地只在一個群體里出現的,特別是對於巨大的群體。所以你只看前面高的就可以了,後面的可以忽略。
推薦閱讀:
※如何看待WeGene與華大基因的檢測結果相差甚遠?
※作為一個基因檢測公司選擇一個好的唾液DNA採集器?
※2017年基因檢測行業有哪些機會?
※目前基因檢測技術在新生兒缺陷的發現上有哪些應用?