肝炎,病菌與大數據
無論是肝炎,流感,還是其他病菌傳染性疾病,在城鎮化和人口遷徙頻繁的今天都不再簡單。所以會使用點大數據工具還是必要的。
7月28日是世界肝炎日。關於這一點,相信很多人或許已經從媒體、社交網站和朋友圈得知,比如各種社交渠道流傳的「小心肝兒」的圖片,包含了各種關於肝臟保護和使用的常識和竅門,各種有關肝炎的現狀。
這些知識包括但不限於:世界每三個慢性肝炎患者里就有一個在中國;再比如,中國是肝炎嚴重流行區之一,乙肝病毒感染者的人數有1.2億;還有,中國每年有近40萬人死於肝臟疾病;以及,每飲酒一次相當於得一次輕度肝炎,等等。
但是這還遠遠不夠。
首先,你想跨越國界,來一場說走就走的旅行?根據去年CEVHAP(亞太撲滅病毒性肝炎聯盟)的數據,亞太區每30秒就有一人死於病毒性肝炎,死亡率是艾滋病的3倍,而從1990年到現在,亞太區死於病毒性肝炎的人數已經從每年70萬人增長到100萬人。
其次,你不進行國際旅行,但你像這個國家裡一半人那樣,住在城市裡。賈雷德·戴蒙德在《槍炮、病菌與鋼鐵》中說的,很多群眾性傳染疾病只有在積聚起足夠多的人口才可能發生,很多我們熟知的傳染病出現的時間都出奇地晚,它們都源自大規模的城鎮化。你總知道中國的城鎮化將是最近數十年這個星球最大的奇觀吧?
對於病毒性肝炎,乃至其他一系列的傳染病來說,那些小貼士有用,但是不足夠有用。非常年代,你需要在過去的經驗中非常陌生、但未來會對你非常有用的工具:大數據。
為何要在肝炎日談大數據?
上面已經說過,世衛組織從2011年起設立世界肝炎日,絕非只因為這天是空閑的。人們並不重視肝炎,一方面是由於肝炎並不像其他一些病毒那樣致命和傳播快速、普遍,另一方面則是由於肝炎具備一些特徵,例如只有部分疫苗,以及非季節性和非飛沫傳播等,使其並不那麼容易預防。
但是你應該比之前更重視它,因為第一它是很嚴重的傳染疾病,其二是因為我們現在有了更好的工具:大數據。相信我,紅極一時的《大數據時代——生活、工作與思維的大變革》一書,就是源於谷歌使用大數據對2009年甲型H1N1流感的成功預測。作者在引言中說,「這是當今社會所獨有的一種新型能力,以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見」。
具體到肝炎,儘管從百年前發現肝炎病毒和部分疫苗以來,人類在醫學上的進展屈指可數,但除了打疫苗和切斷傳播途徑、遠離易感人群,其實還有另外一種積極的預防方法——那就是上述「深刻的洞見」,養成使用大數據分析工具的習慣,經常性地了解所在地或目的地的流行病情況,儘可能地遠離高危的傳染源發地。
目前可供個人使用的大數據工具主要有兩類,一類是來自醫學監測機構的大數據,類似中國的疾控中心,美國的Carolinas Health Care,日本京都大學荒牧研究所等,以來自就診患者統計為主,輔以大數據分析手段,以顯示某地區目前流行病的發病情況為主,預測疾病流行走向為輔;另一類則來自搜索引擎和數據分析機構,包括google trends的疾病預測,百度預測6月上線的疾病預測,以及基於社交搜索的sickwether、patientslikeme和融合性的Healthmap等,以預測疾病流行走向為主,展示區域發病情況為輔。
兩種數據工具的手段大同小異,區別只在於前者提供的數據多是針對大區域的、服務機構的數據需要,後者則多針對小區域甚至某個城市商圈,為個人消費者服務。考慮到中國人的具體需求,這裡我們主要介紹針對國外旅行的google預測,和針對國內的百度預測。
Google預測:曾經很准,現在不好說
谷歌流感預測(Google Flu Trends)早在2008年即已推出,原理是採用流感趨勢系統監測全美的網路搜索,尋找與流感相關的詞語,比如「咳嗽」和「發燒」等,並利用這些搜索結果來提前9個星期預測可能與流感相關的就醫量。
2009年在H1N1爆發幾周前,谷歌公司的工程師們在《Nature》上發表了一篇論文,介紹了GFT,成功預測了H1N1在全美範圍的傳播,甚至具體到特定的地區和州,而且判斷非常及時,令公共衛生官員們和計算機科學家們倍感震驚。
這個工具最初運行表現很好,許多國家的研究人員已經證實,其流感樣疾病(influenza-like illness, ILI)的估計是準確的,並且可以提前數周乃至數月,不像疾控中心一樣要在流感爆發一兩周之後才可以做到。
但此後的2013年,《新科學家》發現,在過去3年,該系統一直高估與流感相關的就醫量,在這類數據最有用的流感季節高峰期尤其預測不準確。在2012/2013流感季節,它預測的就醫量是美國疾控中心(CDC)最終記錄結果的兩倍;在2011/2012流感季節,它高估了逾50%。
《scientists》雜誌認為錯誤源自一種被稱作大數據浮誇(Big Data Hubris)的演算法變化,例如對模型的人工優化,或是模型對某些不當關鍵詞的自動調整(例如某些搜索其實源於季節而非真實發病),google對此也做出了一些調整,但效果仍待評估。
百度預測:新鮮上線,期待閃光
百度的疾病預測(百度疾病預測)於今年6月上線,目前可以對全國331個地級市,2870個區縣的四種疾病進行未來趨勢的預測,某些城市甚至已經細化到具體的商圈。目前該產品提供流感、肝炎、肺結核和性病四種疾病的活躍度、流行指數,以及各種疾病相關的城市和醫院排行榜,用戶可以查看過去30天以內的數據和未來7天的預測趨勢。而且百度還在疾病預測的頁面上,整合了百度旗下其他優勢產品資源,比如在頁面右下角提供了百度百科和百度健康的鏈接,用戶點擊過去就可以了解到有關當前頁面疾病的各種相關知識。
因為上線時間較短,百度預測的效果還很難評估,但考慮到比google預測上線較晚,加入了一些最新的技術成果和數據採集結果,這款產品在技術上應該是靠譜的。
例如,從公開資料來看,該產品模型的搭建一是通過歷史數據構建統計規律性,比如流感或者手足口等疾病具有季節性周期的規律,二是通過研究疾病人數與其它相關數據的相關性來計算預測結果,同時從統計的角度來驗證數據的正確性,以機器提供的數據為基礎, 加入對異常數據的監控和分析。
而為了讓預測的準確率更高,百度還做了另外兩方面的努力。其一是在數據合作上,不僅引入權威機構的相關數據而且保持同步更新,這其中不僅包含數據互通,同時也會與合作方的專家進行產品交流。
另一點不同在於,百度預測引入社交、天氣、人群遷徙等搜索之外的數據,在搜索數據上,google的query數據依賴於Google Correlation產品,而百度則是直接從原始日誌中進行清洗、消岐、擴展和分析,相對來說,理論上更容易避免「春天感冒怎麼辦」這樣的查詢影響結果。此外,百度的地理劃分可以細化到城市商圈,可以查詢的疾病也比google多。有鑒於此,我們有理由給予其更多的期待。
結語:無論如何,應該試試
從此前世界盃預測的結果來看,百度擁有比google更靈活的數據挖掘手段,和更專業的分析團隊,但目前我們面對的現實是,百度尚未提供國外服務,因此我建議在國內使用百度預測,在國外則使用google預測,或者試試基於社交媒體數據的sickwether,據說準確率也不錯,達到90%。
需要指出的是,對預測誤差過分擔心是沒有必要的。正如《大數據時代》一書所說,大數據本身探尋的是一種趨勢,而非精準性,大數據時代需要學會接受數據的不完美。換言之,不能因為不精確而放棄大數據的應用和發展,若要無限接近統計結果的真,必須讓大數據與精細的傳統統計方法互補,而非兩者相互替代。
當然,google需要解決大數據浮誇的問題,百度也需要面對一些挑戰。例如,目前我國對大數據給健康服務業發展帶來的影響認識不足,在當前的產業發展規劃中,忽視了大數據對該產業的影響,這些都需要百度運用其行業影響去改善。
總的來說,從現在開始,你應該養成出門前看看「疾病預報」的習慣,正如看天氣預報那樣,它惠而不費,而且已經足夠好用,這並不僅限於肝炎。至少我已經開始這麼做了。
推薦閱讀:
※MaxCompute Optimizer之表達式約化
※獨家 | 一文帶你上手卷積神經網路實戰(附數據集&學習資料)
※從單租戶IaaS到多租戶PaaS——金融級別大數據平台MaxCompute的多租戶隔離實踐
※下一次工業革命來了,你知道他是誰么?
※《數據架構》閱讀筆記(十二完結篇)複合式的數據架構
TAG:大數據 |