機器學習+生物大數據之機遇與挑戰

作者 郭瑞東

身心健康,對於我們每一個人,都是生命中最寶貴的財富。投資健康,不論對於個人還是對於機構,都是個不錯的idea。但我們應該怎麼做了?在回答What這個問題之前,首先要問的是How,即機制的問題。

各位都有做過體檢的經歷,無論是血常規還是尿常規,檢測報告上的各種數值都寫著你是否在一個範圍內,高了或是低了,都顯示身體已經有了問題。這說明,身體健康的本質是機體能夠將某些特定的核心特徵維持在一個固定的範圍內,從而使機體能夠看起來是健康的。

然而這樣的檢測會有明顯的局限,細心的讀者應該已經注意到,在上文的描述中,當我們體檢發現機體的核心指標有了問題,那麼多半已是病入骨髓,即使能夠治好,也會對身體造成些暫時甚至永久的傷害。這也意味著,即使你的檢測指標都正常,也只能告訴你當前你的身體看起來沒有問題,注意,僅僅是看起來,不是保證。而對於那些體檢時某些指標剛剛過線的小夥伴,你們的健康狀況,更加讓看到體檢報告的小夥伴心理沒底。

總結起來,傳統的醫學,是從底向上的,而到了大數據時代,我們對健康的管理,將轉變為從上到下的模式。這個轉換需要業界和廣大消費者的共同參與,需要我們改變對健康的認同。

決定我們健康的因素,可以用一個金字塔模型來說明,金字塔有四個角,每個角都不可或缺,對應到人的健康上,有四個因素,即GMEE,分別對應基因 GENE,微生物Microbe,運動 exercise,環境environment,這四個因素的綜合作用,決定了人是否會健康,掌握了這四方面的數據,我們就可以用機器學習的方法,構建出一個模型,精確的預測出一個人未來健康與否,從而幫助個人做出更有準備的選擇。

目前,這些數據看起來都有了,無論是基因檢測還是關於人體內微生物的檢測,都會隨著成本的降低而變得普及,從高端用戶走向尋常百姓家。而日益普及的可穿戴設備,則會記錄我們的運動數據,心跳數據,若之後智能眼睛普及後,隨時隨地記錄我們的飲食和所處的環境,也不是什麼難事。這無疑是很多人看好生物大數據的原因,我們已經有了硬體,我們已經到達了引爆點。

可硬體就足夠了嗎?互聯網經濟的真正起飛,不止得益於網費的降低,移動互聯網基礎設施的修建,更是由於人們改變了自己的認知。生物大數據要想起飛,只有硬體的完備是不夠的。

這裡首先要解決的就是數據的隱私處理。機器學習,尤其是深度學習要想有所作為,就必須依託于海量的數據集。Alpha GO 從三千萬棋譜中學會了圍棋,而進化45億年賦予我們的機體,具有遠遠高與此的複雜度。要想做到對我們子孫的健康狀況未仆先知,我們需要這個地球上大部分的人都能夠將他們的GMEE數據貢獻出來。然而我們對於涉及自身核心機密的生物數據,能夠放心的交給某個私人公司或者政府機構嗎。我們一方面需要更有效的演算法,在保障用戶個人隱私的基礎上,讓研究者能夠使用匿名的數據做研究。另一方面,有志於生物大數據的機構也需要想辦法說服用戶,將其數據貢獻出來。

這裡舉一個案例,23rd and me是全球最大的面向個人用戶的基因檢測服務提供商,最近他們做了個基因數據和近視相關的研究,樣本量遠遠超過了之前的同類研究,在未來,類似的研究會使用更多的樣品量,將會結合更多來源的信息,不止是基因上的SNP分型,還包括DNA甲基化的程度,包括人體的腸道微生態,包括運動手環所包含的運動信息。這裡提到的信息類型,不同於一成不變的基因信息,是可以改變的,這固然在增加了時間這個維度後會極大的提高了機器學習演算法所要面對的複雜程度,也對數據的隱私保障提出了更高的要求。

再舉另一個案例,國內的微基因是一家類似23rd and me的公司,他們想研究基因和睡眠的關係,因此需要檢測了基因的用戶能夠提供他們的智能手環記錄的睡眠信息,然而,要想收集信息,就必須保證信息的安全。同時還需要給用戶足夠的承諾和激勵,只有做到了這兩點,才能保證足夠多的數據來源。

信息安全不是生物大數據所需構建的唯一「軟體」基礎設施,即使有了足夠多的跨平台的GMEE數據,機器學習的基於概率的方法,都會使得其給出的預測不會是絕對準確的,而大部分消費者,對於概率的認識,尤其是極大或極小的概率的認識是不準確的。由於我們覺得萬分之一的風險和十萬分之一的風險差不多,我們會抱著僥倖心理,不改掉自己的不健康的生活習慣。而當我們聽到我的某方面的患病風險增高了一倍時,又會過度焦慮,卻沒有意識到實際上風險只是由百萬分之一上升到了百萬分之二。

生物大數據要想真正做到幫用戶提高生活質量,不得不做的功課是對消費者做基礎的統計科普,教會他們用概率來思考問題,教會他們去衡量極小的概率以及用貝葉斯的方式去動態的評估概率的變化,如果做不到這幾點。那麼機器學習從生物大數據中提煉出的建議只會讓消費者產生誤解,而無法指導用戶的生活,從而在耗盡了他們的好奇心之後,面對泡沫的破滅。

總結起來,未來生物大數據與機器學習的結合,將會迎來巨大的增值潛力,但這是一個需要巨大的,長期的投資的領域。是一個更需要和消費者溝通這樣軟能力的領域,未來想在這個領域活下來,不止要技術上有優勢,更是願意花時間去潛移默化的教育用戶,同時尊重用戶隱私。

本文首發於微信公眾號混沌巡洋艦(chaoscruiser)。

歡迎關注混沌巡洋艦,追尋自然界複雜下的簡單,帶你學習各路跨界乾貨。

著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

推薦閱讀:

Adaptive Feature Selection based on the Most Informative Graph-based Featuresn閱讀筆記
如何用機器學習判別一個城市的水系美觀度?
【啄米日常】3:一個不負責任的Keras介紹(下)
模型匯總22 機器學習相關基礎數學理論、概念、模型思維導圖分享

TAG:大数据 | 基因 | 机器学习 |