目前的商業基因測試所給出的一個人的血統信息足夠科學可信嗎？

01-05

目前的技術能夠準確獲得一個人血統的全部信息嗎？或者能夠掌握一種血統的全部特徵嗎？

目前的技術可以很詳細解讀一個人的血統。血統的分析主要分三個部分：父系Y染色體、母系線粒體、父母雙方的常染色體。Y染色體和線粒體都是單向傳遞，且不同類型有著很好的地域分布特性，可以分別追溯父親的父親的父親...以及母親的母親的母親...，比如我的Y染色體是002611下的F11這一支系，在東部沿海地區高頻分布，而在西藏人群中低頻，是這是中國人父系三個老祖宗中最老的一支（參見【祖源趣聞】四成的中國人源自新石器時代的三個老祖宗），而我的母系屬於M9a1a單倍群，大都出現在藏緬族群中。常染色體是父母雙方混血重組的產物，可以更詳細地反映近期的遺傳遺傳混合，我的常染色體遺傳成分跟世界各族群比較後發現一半來自漢藏族群，南方土著的侗傣和南亞語成分也佔到了20%，很有趣的是東北和遠東的通古斯人群也貢獻給了我約十分之一的DNA。

這不是把人分成幾等，而是科學地去用遺傳學回溯人群歷史，近二十多年來都是學界研究熱點，尤其是引入古DNA之後能夠更清晰地解析人群的起源、遷徙路線，對考古學、歷史學、民族學和語言學研究起到了革命性的推動作用。

目前商業上能做的祖源分析有兩種，一種是Y染色體或者線粒體DNA的單倍型，一種是基於常染色體的祖源成分分析。問題要分開看。並且，『科學/不科學』不是二元的，需要稍微理解一下其背後的原理才能判斷『這些東西在多大程度上靠譜』。

受外行的細分領域專家假鈔同學的啟發，關於這種基於『大數據』的『相關性研究』問題，可以簡化為三個緯度的問題：1. 使用的數據量大小 2. 可追溯時間的長短/因果關係明確與否 3. 預測的準確與否。而每個相關性研究只能最多滿足『數據量大』『追溯時間長/因果關係明確』和『預測準確』中的兩個正向指標（往往研究簡單性狀所需數據量小、因果關係明確、預測準確度高，而複雜形狀所需數據量大、因果關係不明確、預測準確度相對低，這個簡單疾病-有限基因位點-壞一個就完蛋-因果明確，複雜疾病-狂多位點-每個有隻有微小的貢獻-只有相關性，是一個道理，稍後可能寫一發專欄科普）。

將這個簡化的理論應用於祖源問題，顯然，單倍型分析類似於『簡單性狀』，所需『數據量小』（只需要Y染色體或線粒體DNA的有限marker），可以做到『追溯時間長』（比如可以發現我是唐代粟特人的後裔，甚至可以追溯到人類Y染色體始祖亞當和線粒體DNA始祖夏娃），以及『預測準確』（Y染色體和線粒體受重組、突變干擾很少）。

而對於常染色體祖源成分分型，就是『複雜性狀』了，做到了『使用的數據量大』（使用了幾乎所有染色體的所有有價值的位點），『預測準確』程度不及單倍型分析，但可以隨著數據量增加而改善——比如PCA分析中漢人和日本人可以非常好地被區分成明顯的兩個群體，但漢人和韓國人就稍難（做WeGene的可以發現，很多人都有不少比例的『韓國人』成分）——但通過增大數據量，有希望獲得更加準確的結果。但是『追溯時間/因果確定性』就是一個短板，比如我們可以知道我們染色體哪些區域更像現今的韓國人，哪些更像現今的大部分漢人。然而我們不能說，那些『更像』韓國人的部分（相關性），就是來自韓國人的祖先（因果）（所以測出百分之幾十韓國人成分的同學也不要焦慮）。除非我們可以收集到很多很多從古到今各個時間點的大量漢人和朝鮮人的DNA樣品，詳細地研究染色體的特徵、分化時間，才能確定『像』韓國人的染色體區域有多大幾率來自朝鮮人祖先或漢人祖先。然而這個受常染色體高頻率的重組和突變影響，時間維度的擴展是很難的。

所以總體說呢，單倍型的分析，已經可以說是很靠譜的了，常染色體祖源成分的分析，從原理上就會差很多。但是隨著人類可用基因組數據的數據量的爆發，兩者的靠譜程度肯定都會增長，而本來較為不靠譜的常染色體祖源分析的準確程度，則會增長得更快（就像是簡單孟德爾疾病的研究早就搞得差不多了，而複雜疾病的paper會越發越多）。

PS，對於這種問題，直接一個『科學』或者『不科學』的答案，顯然是不夠負責任的 #又不是天賦基因檢測#

建立一個模型：

假設條件：

其它鹼基位點穩點不變；

孩子出生還很均勻，沒有明顯的偏差；

測試的時候是隨機取樣，樣本很少，基本達不到測試樣本容量的許可。

第一種情況：

第一代人的基因有七個位點AAAAAAA，在第n代時候，第一個位置發生了突變，一半人是A，一半人變為C，我們記錄為一個基因還是AAAAAAA，第二個的基因為CAAAAAA，然後又過了n代時候，第四個位置發生了突變，A分別變為C與G，這樣現在有個四種基因形勢為AAAACAAA, AAAGAAA和CAACAAA, CAAGAAA

第二種情況：

第一代人的基因有七個位點AAAAAAA，在第n代時候，第四個位置發生了突變，A分別變為C與G，我們記錄為一個基因還是AAACAAA，第二個的基因為AAAGAAA，然後又過了n代時候，第一個位置發生了突變，A分別變為A與C，這樣現在有個四種基因形勢為AAAACAAA, CAACAAA和AAAGAAA, CAAGAAA

問題來了，如果你是2n代之後的人，你想知道你在n代時候屬於哪個分支，就會出現上面兩個情況。

舉例很極端，在很多假設條件的前提下，但現實中，世界人口70億，中國人口十幾億，真的很難做到達到統計量要求的數據結果。

不難發現，現在所有說測序的尋找祖先的方案普遍是通過國外的論文結合現有的遺傳樹型，還有自己隨機抽樣的數據進行層次聚類（或者通過控制最大熵的類似決策樹，至少我是這麼分析的）的分析結果，建立的遺傳樹也是一家一個樣子（雖然整體大部分一樣，但細節地方真的區別不小）。這裡還沒有包括測序的錯誤。我看過某些測序結果，覆蓋層數在很多位點只有兩層，這樣的數據可信度真心不高。

但很好奇一個問題，大家都是往前看的，都想知道自己未來活多久，健康不健康，為什麼那麼多人想知道自己祖先是誰？自己祖先是某個皇帝能說明什麼？我喜歡歷史，因為歷史給我很多經驗和教訓，但對於我家族的曾經，一點不好奇。

「血統」這種東西娛樂、吸引眼球的成分更高，對於個體並沒有任何實際意義，看著樂呵一下就好。

自己感覺是比較準確的。爺爺上海漢族奶奶東北滿族長得不像漢人。姥爺俄羅斯人但是是俄羅斯的少數民族姥姥摩爾多瓦人。看了基因測試的結果貌似沒有很大偏差。

我做的應該不是商業基因測試吧……復旦大學分子人類學實驗室的嚴實博士 @polyhedron給測的233 當時是靜脈抽了一管血而且沒有要錢XD

官方信息可以參考：http://www.ranhaer.com/thread-14446-1-1.html

血統信息這種事情當然只是僅作參考啦不過根據Y染色體及線粒體的信息的確能夠追溯父系和母系

我的Y染色體17-STR測序結果是O1a1 P203單倍群（如果去看STR的原理的話會知道嚴格來說這是猜的orz 嘛反正不要錢啊）

然後人類學家們就是根據這個單倍群的分布信息就可以推測祖先的血統了……

比如我這個，根據維基百科……當然民科一點的說法就是百越土著XD

The Haplogroup O-MSY2.2 branch is believed to have evolved during the Late Pleistocene (Upper Paleolithic) in Southeast Asia.
O-P203 was found in 34/48 of Taiwanese Aboriginals, 1/48 of Filipinos, 4/70 of Vietnamese, 1/38 of Malaysians and 15/165 Han Chinese.

感覺本文可以分兩部分，一部分是討論檢測手段，另一部分是討論所得到的信息。其實嚴實博士的博客里都有科普：polyhedron_新浪博客

留個坑待填吧，順便也系統整理下這方面的知識（

血統的研究很困難，既要考古又要生物。

意義也不大，畢竟不是玄幻小說，血統覺醒會一下子帶來一些逆天的能力。

而且這容易引導向人為分成幾等。惡劣堪比希特勒了。

---------------

基因檢測的應用方向還是應該放在遺傳病的檢測和預防

不科學，其主要目的其實是對檢測手段的驗證，媒體社會都在買櫝還珠