從Google預測流感引發的大數據反思

談到大數據,一定會提到三個小案例。第一個例子是某個未婚少女懷孕了,甚至她老爸也不知道這件事兒,但是商家卻打電話過來問需不需要買孕婦用品。第二個是經典的「啤酒和尿布」的例子,這個例子比較早,講的是基於關聯規則分析來預測超市裡面顧客購買行為規律。第三個是近年來才吵吵的比較火熱的例子,是谷歌通過搜索引擎裡面的關鍵詞檢索日誌的時間序列數據成功預測了流感爆發的時間和規模。第一個例子背後是基於精準營銷,是大數據針對個人級別的應用,第二個例子能夠有效預測零售商需求,屬於企業級別應用,而第三個例子則是地區級別和國家級別的應用。由此可看出,當大數據真正走進生活、走進社會,其施展能量的力度越來越大,越來越強。最後,大數據這個概念就被吹的神乎其神了。

當我們聽到這些大數據的應用案例時,會很自然地去質疑這些案例的可靠性。心中不免默念,這玩意兒的確有如此靠譜么?而其中最讓人感覺不靠譜的,無疑是第三個,Google預測流感這件事兒。2009年2月19日,Nature上面有一篇文章,「Detecting influenza epidemics using search engine query data」(感興趣的朋友可以關注以下),論述了Google基於用戶的搜索日誌(其中包括,搜索關鍵詞、用戶搜索頻率以及用戶IP地址等信息)的匯總信息,成功「預測」了流感病人的就診人數。

那麼,Google為什麼要干這件事兒呢?美國有個很牛的部門叫CDC,也就是疾控中心,這個部門統計美國本土各個地區的疾病就診人數然後匯總,最後公布出來。但是呢,這個公布的數據的結果一般要延遲兩周左右,也就是說當天的流感的全國就診人數,要在兩周之後才知道,Google呢就利用他的搜索引擎搭建了一個預測平台,把這個數據提前公布出來。所以說,Google做的工作並不是實際意義上的預測什麼時候流感來,而是將CDC已經獲得但是沒及時公布的數據提前給猜出來,然後公布出來。當然,CDC為什麼不及時公布數據,人家官方總是有自己的一堆理由的,我等草民不得而知,但是有一點是重要的,就是「越及時的數據,價值越高」,數據是有價值屬性的。所以,Google的工作無論在公共管理領域還是商業領域都具有重大的意義。

Google的研究結果公布出來以後,大眾對於這個研究案例的好評和差評都有不少,總之,引起了社會的熱議,這個例子從而也成了經典的案例。那麼社會為什麼會對這個例子予以如此重要的關注呢?其原因就在於,如果在這個案例上成功了,Google就真正證明了大數據是「萬能的」這件事,從而徹底顛覆社會對於大數據的看法。

首先,Google在這個研究中對於數據的處理只用了很簡單的Logistic回歸關係,稍微有點兒高中數學基礎的朋友很快就可以理解應用,但是卻成功地預測了複雜的流感規模的問題。Google用了簡單的方法,預測複雜的問題。這件事為什麼能成?根本就在於,Google的數據量大。這就是Google對於大數據的價值觀。大就是一切!Google有著世界上最大的搜索引擎,全世界每個用戶的搜索行為都給存在Google的資料庫里,Google想,我有這麼多數據,不是想知道啥就知道啥。於是Google就做了這個偉大的事兒!

回過頭來看三個經典的案例,從系統的角度上來看,一個人是一個小系統,一家超市是一個中等規模的系統,而一個國家一個地區則是一個超大的社會系統。如果要對一件事進行預測和分析,數據分析師要做兩件事,一、構造理論模型;二、獲取實證數據來擬合構造模型。對於小型簡單系統,構造理論模型是可行的,而對於大規模的複雜系統,模型的構造則十分艱難(這也正是社會學家們每天忙碌研究的課題,也正是為什麼社會革命家和思想家是如此的偉大,像馬克思等等…)。大數據的觀點之一認為,海量的數據可以彌補模型的不足,如果數據足夠大,理論模型甚至根本就不需要。這種觀點目前仍然處於爭論中,搞理論的和搞實證(強調數據和統計方法)的專家們對此的口舌之戰從沒有停歇過。但無論如何,Google對於流感預測的研究無疑站在了支持大數據的一方,如果Google的案例是成功的,那麼或許,擁有海量數據就真的意味著可以解決任意複雜的問題,大數據解決大問題!

上面的論述講了半天Google案例的重要性,所以接下來,業界就把所有的目光凝聚在了Google預測的結果上。截止到Nature上面那篇Paper發表出來的時候,Google的預測還是準確的,不過到後來就發生了很大的偏差,偏差最大甚至高出了標準值(CDC公布的結果)將近一倍。如下圖:

開始理論學家們是沮喪的,看到Google仗著自己龐大的資料庫,在醫療監控這種複雜問題的預測分析過程中為所欲為,覺得自己馬上就要下崗。然而時間到了2012年中旬的時候,他們就樂了,發現Google也不過如此,自己還是有價值的,實際上情況也確實如此。Google預測的失敗也確實是過度地依賴於數據,導致很多被忽略了的因素對預測的結果產生了很大的影響。對客觀世界進行預測需要模型,模型首先來自於理論構造,其次需要數據對模型進行訓練對模型進行優化完善。大數據觀點強調模型對數據訓練的依賴,而儘可能地忽略理論構造這一部分的意義,這就有可能帶來隱患。

從更加批判的角度來看,理論模型當中的確有一部分因素可以用數據量的規模來彌補,而仍然有一部分是不可彌補的。可彌補的部分因素,往往在數據量比較大的時候,被均勻的數據分布內部平滑抵消掉了,從整體上不會對最終的結果產生顯著影響;而不可彌補的部分,往往和系統背後的結構性因素有關,這些因素不僅不會隨著數據規模的增加而被消除,反而會由於系統的規模效應逐級放大最終產生背道而馳的結論。那麼當數據分析專家需要對複雜的社會系統進行分析時,就一定要嚴謹地考慮對數據的依賴程度。因此,Google的案例既是一個很好的大數據的應用,同時其也為大數據在未來的發展道路上起到了很好的指示燈的作用。最後還是那句調侃的話:」Big Data is like teenage sex. Everyone talks about it, nobodyreally knows how to do it, everyone thinks everyone else is doing it, soeveryone else claims they are doing it too」

你又是對大數據怎麼理解的呢?

推薦閱讀:

RDD論文翻譯:基於內存的集群計算容錯抽象
大數據學習筆記:Hadoop之HDFS(下)
下一次工業革命來了,你知道他是誰么?
寒假學習打卡

TAG:谷歌中國 | 大數據 | 數據挖掘 |