大數據真能預測流感疾病爆發嗎

「你在南方的艷陽里大雪紛飛我在北方的寒夜裡四季如春」正如歌詞,這是南方北方暖氣差異冬天的真實寫照。北方的冬天,家家都是暖氣,天氣乾燥加之連續幾個月沒有下雪,每天起床嗓子都是乾乾的,好多人都出現上火/咳嗽,加上室內室外溫差較大,普遍出現感冒/發燒的也不在少數。

各個醫院也人滿為患,尤其是兒童醫院,有些特效藥出現了短缺,那這些一切的背後能否有效機制預警流感的爆發呢,好讓醫院和機構有相應的準備和應對措施?

其實這些都是有先例的

2008年,谷歌推出了一款名為「谷歌流感趨勢」(GoogleFlu Trends)的產品。工程師們假定:一旦人們患上流感,就可能會在搜索引擎上輸入特定的檢索詞條以獲得與流感相關的信息。通過匯總和分析這些檢索詞條,谷歌就能預測流感將在何時何地爆發。2009年,這款產品在甲型H1N1流感爆發幾周前成功預測了其在全美範圍的傳播,反響巨大!一時間,有關大數據開啟公共衛生變革的觀點接踵而來。

但人們有所不知的是,「谷歌流感趨勢」之後的表現並不盡如人意。在2011 年至2013 年間,該項目多數高估了類流感發病率。在最近一次預測流感爆發趨勢時,谷歌所預測的流感病例數目幾乎是美國疾病控制與預防中心統計數據的兩倍。

其實主要是兩個方面造成流感預測失敗,一個是搜索關鍵詞和疾病爆發即使有相關性,也沒有什麼因果性,一個人搜索感冒,也不一定就是病了,也學就是隨便搜索玩玩。這種預測有很大的偏差,因為公眾並不了解疾病和癥狀的對應情況。比如搜索感冒,但很可能得了非典,關鍵詞和疾病的對應關係無法建立。

另一個就是在數據分析方面存在欠缺。哈佛大學教授GaryKing的研究就指出了谷歌項目在分析上的不足。首先,這個項目沒有儘可能利用傳統的統計分析手段來剔除系統誤差,比如殘差的自相關性和季節性;其次,「谷歌流感趨勢」忽略了其他數據的作用。

有網友講了個笑話,有機構監測到某地在某一段短時間內突然爆發了很大的流感相關名詞的搜索量,於是很緊張地通知了疾病防控中心。等疾病防控中心的人去調查,發現那裡平安無事,只不過是有兩個大的醫學院,而那段時間正值期末考試。

雖是笑話,也側面反映出大數據給出決策前,不僅要採納數據廣泛性,也要注意採納數據的嚴謹性,才能提高數據結果的準確性,不至於出現大的決策偏差。

儘管這些項目還存在缺陷,但這並不足以否定大數據對國民健康的潛在貢獻。

隨著信息技術的發展和相關軟硬體性價比的提高,相當多的數據服務商和地區醫療服務網路已開始利用大數據,尋找最有效和最具成本效益的醫學、預防和干預手段。

相信在不遠的將來,大數據預測疾病將成為一個大趨勢。大數據結合國家疾病預防控制中心觀測點的數據,可提供更多更全面的原始信息。如果配合嚴謹的分析,這有可能開闢疾病監測防控的新天地。

雖然在探索時期的預測總會有給公眾不準確的印象,但我們應該給出足夠的耐心,就好比現在的天氣預報比10年前更準確一樣。

歡迎關注「壹看板」,數據分析工具免費試用!

推薦閱讀:

大數據學習計劃
關於大數據的思考
平均每50個地球人中就1位來自雙11剁手大軍
pandasql:讓 python 運行 SQL

TAG:大数据 | 流感 | 预测 |