【徵集】讓我們一起玩#別人的#數據研究人體

如果你手上有成千上萬份的人♂體♀數♂據(基因型+表型調查),那麼就可以用統計學(關聯分析)來算它們之間的相關性。舉個例子,BRCA1和BRCA2的基因型和乳腺癌的發病概率強烈相關;ACTN3基因的一個叫做rs1815739的位點的基因型和運動的爆發力有強相關性;FTO基因rs9939609位點的基因型和肥胖相關。

所以,一旦你掌握了幾千甚至幾萬人的基因組數據,你想用他們來研究人體的哪一部分功♂能呢?像基因泰克一樣去研究帕金森,還是去搞點別的?比如存不存在『智齒橫著長基因(型)』、『肚臍下面長毛基因(型)』、『小腳趾指甲分叉基因(型)』、『喝咖啡會低血糖基因(型)』、『中年發福基因(型)』、『起床氣基因(型)』、『姨媽期間智商為0基因(型)』、『wuli滔滔粉絲基因(型)』、『廣場舞能力者基因(型)』、『拖延癌晚期基因(型)』、『臉盲基因(型)』、『路痴基因(型)』、『《新聞聯播》《環球時報》愛好基因(型)』、『香菜/折耳根/榴槤/兔頭/仰望星空派/鯡魚罐頭耐受基因(型)』、『鳳凰男基因(型)』、『直男癌基因(型)』、『作女基因(型)』、『薅羊毛愛好基因(型)』、『脈動瓶口不夠粗基因(型)』、『愛小黃文勝於小黃圖基因(型)』、『掉書袋基因(型)』、『辣妹子基因(型)』、『長壽長者基因(型)』、『膜法師基因(型)』、『萊溫斯基的裙子是藍黑還是白金基因(型)』,etc。

當然不是所有東西都能跟基因有關,比如肯定不存在『處女座基因(型)』,因為啥時候出生和DNA沒啥關係,但是『龜毛基因(型)』就可以。同時,也不是所有跟遺傳有關的性狀,都能找出相關性極強的基因和基因型。不過沒關係,反正我們就隨便玩一玩,您儘管開口。

歡迎大開腦洞留言,告知你關注的可能與基因有關的性狀、疾病。我會在閑著無聊時稍加整理,沒準過兩天會搞個投票之類的,來評選最具科學價值/最大腦洞的答案。隨後,可能會請有大規模數據的土豪和基因組的所有者施捨數據許可權、提供我們感興趣的表型信息,認真地scientifically地尋找一下這些性狀和基因有多大關係。

可以這樣留言:『博士狗偏好基因』

也可以整理成樹狀結構,比如:

| — 是不是博士 【結果可以拿去跑『博士狗基因型』】

|  | — 是

|  |  | — 是不是生物博士 【=>『生物博士狗基因型』】

|  |  |  | — 是

|  |  |  |  | — 是不是已經患有抑鬱症 【=>『生物博士規避基因型』】

|  |  |  |  |  | — 是

|  |  |  |  |  | — 否

|  |  |  | — 否

|  |  | — 是不是博士生導師 【=>『supervisor基因型』】

|  |  |  | — 是

|  |  |  |  | — 是不是很push的導師 【=>『危險導師的基因型』】

|  |  |  |  |  | — 是

|  |  |  |  |  |  | — 是不是沒有產出 【=>『需嚴肅規避的導師基因型』】

|  |  |  |  |  |  |  | — 是

|  |  |  |  |  |  |  | — 否

|  |  |  |  |  | — 否

|  |  |  | — 否

|  | — 否

當然了,你不這樣整理我也會在閑著么事兒乾的時候整理的。而且問題越深,顯然樣本量會越小,越傾向於跑不出有統計效力的東西或者跑出奇奇怪怪的東西。

那麼請開始留言吧!在知乎專欄帖下直接留言(【徵集】來吧讓我們一起玩數據研究人體)或者在微信公眾號留言(不推薦,會丟)都可!如果有很長、很屌的idea也歡迎發郵件到 im.ss.kk艾特gmail叨com給我!


推薦閱讀:

可視化之醫療保健數據的未來——繪製新用戶界面的方法
用數據化的方式解析投資條款(總結並持續更新)
獵聘網CDO單藝:大數據很熱,錢很多,但你真的喜歡它么?
數據有意思:馬拉松報名費是不是太「貴」了?
kali linux 2.0 web 滲透測試 電子書

TAG:基因 | 大数据 | DNA测序 |