為什麼人們不再熱議「大數據」

01-30

作者｜Will Oremus
譯者｜薛命燈
編輯｜Emily

AI前線出品｜ ID：ai-front

2012 年 2 月，紐約時報周日評論（Sunday Review）版塊一篇題為「大數據時代（The Age of Big Data）」的文章預示著人類新時代的到來。文章說，人類社會即將迎來一場巨大的變革，大數據將會改變人類的生活。數據分析不再局限在表格上，隨著計算能力的增強，以及與互聯網相連接的感測器不斷地將記錄的數據發送到雲端，Micheal Lewis 在 2003 年出版的「Moneyball」一書中所描述的高級分析技術可以被應用到人類社會的各個領域，從商業到學術、醫療，甚至是人類的情感世界。不僅如此，強大的數據分析軟體還可以識別出事物之間超乎我們想像的聯繫，比如一個使用大寫字母的借款人與他的違約行為可能性之間存在某種聯繫。這種看似神奇的洞見改變了我們對事物的看法。

紐約時報並非第一家得出該結論的媒體，在 2011 年麥肯錫的一份報告以及 2012 年達沃斯世界經濟論壇上一份題為「大數據，大影響（Big Data,Big Impact）」的報告中都提到了這個觀點。媒體的大肆宣傳通常預示著一個新時代的開始。次月，奧巴馬政府啟動了一個兩億美元的大數據計劃，這一舉動迎來了一場躁動：大學、非盈利組織、政府和商業公司爭先恐後地站出來，試圖解釋什麼是「大數據」以及他們將如何利用大數據。

躁動是短暫的。五年之後，大數據確實在我們的生活中扮演了重要的角色，但「大數據」這個詞卻不再時髦，甚至招來了少許不好的名聲。所以，我們很有必要回顧一下大數據在發展過程中都發生了什麼，以及數據分析和演算法將何去何從。

Gartner 公司在 2015 年的「炒作周期」報告中將大數據拿掉，之後就沒有再放回去過。Gartner 公司解釋說，這並不是說其他公司放棄了大數據，而是因為這項技術已經很普遍了，沒有必要繼續給它打上「新興技術」的標籤。大數據讓演算法變得更強大，新聞源、推薦系統、自動股票交易、自動糾錯系統、健康跟蹤等，它們都依賴大數據和演算法。只不過我們現今似乎很少再提及「大數據」這一詞，而是直接叫它們「數據」。我們開始理所當然地認為數據集當中深藏不計其數的洞見，可以通過強大的軟體來挖掘它們。

在 Cathy ONeil 於 2016 年出版的「Weapons of Math Destruction」和 Frank Pasquale 於 2015 年出版的「The Black Box Society」中，「大數據」一詞開始帶有貶義的色彩。匆忙之中通過所謂的「數據驅動決策」來應用大數據技術只會犯下大錯。

這裡有一些很明顯的事實：Target 公司向還沒有對外宣告自己已懷孕的年輕女孩家庭發送嬰兒用品券，Pinterest 給還未正式舉行婚禮的單身女性送上祝福，Google Photos 因為訓練數據不足導致將黑人誤認為是黑猩猩。

還有其他一些很隱晦的情況，比如 ONeil 在她的書中所提到的那些模型：法庭使用帶有種族偏見的再犯模型（recidivism model）來審判罪犯；學校基於一些帶有爭議性的分數模型解僱有愛心的教師。

「大數據」的問題不在於數據本身，如果我們能夠小心地應用大數據技術，就可以發現海量數據中隱藏的趨勢。Julia Rose West 最近在 Slate 上寫道，大數據的問題在於盲目的數據崇拜和濫用，這將把我們推向災難的深淵。

大數據本身具有不易解釋的特點。在收集了數以億計的數據點之後——網頁的點擊或滑鼠指針的位置、十字旋轉門的旋轉、世界各地每小時風速、推文——這些數據點開始變得模糊不清。這意味著我們從數據中看到的高層次的趨勢有可能是非自然的洞見。更重要的是，我們所擁有的數據有可能只是我們想了解問題的代理，大數據本身不會解決問題，只會放大問題。

例如，民意調查被用於預測選民在實際選舉中的表現。但過去的一些意外的選舉結果卻在告訴我們——從 1982 年 Tom Bradley 在加州州長選舉中失利到 Brexit 和 Trump 之間的選舉競爭——民意調查和實際投票之間並不存在完美的關聯性。Facebook 根據用戶是否單擊頁面上的「喜歡」按鈕來判斷用戶對網頁內容感興趣與否，但隨著標題黨、求贊帖和嬰兒圖片的大量出現，他們逐漸意識到那些所謂的「喜歡」並不真實。

真實問題與代理之間的差距越大就越危險。以 ONeil 書中所述的模型為例：校方通過數學模型將對教師的評估與學生的考試分數關聯起來。但影響考試分數的因數有很多，並非都是老師所能控制的。大數據的迷人之處在於，藉助海量數據和強大的演算法，我們可以從大數據中找到有意義的關聯性，即使數據中包含了大量噪音。ONeil 所描述的模型利用多個地區和系統學生之間的關係生成了一系列「預期」的考試分數，並把學生的實際考試成績與它們進行對比。

現在試想一下，如果將這種模型應用在單個學校中，那麼每個年級的老師只能與其他年級的老師展開對比。沒有了大數據，學生的考試分數就會表現出很明顯的差異。沒有人會認為這隻與學生的能力有關，而讓教師置身事外。而且，要找出背後的原因也相對容易。

該系統的實現使用了大數據集，需要由第三方諮詢機構使用專利數據模型進行評估。雖然這樣具有一定的客觀性，但也阻礙了我們了解模型是如何得出相關結論的。ONeil 的分析指出，一些教師可能會得到較低的分數，並不是因為他們的學生表現很差，而是因為學生在去年表現太好了——或許之前有些老師為了提高自己的得分而捏造數據。

當然，這並不是說我們要忽視學生考試分數、民意調查、內容排名演算法或重犯預測模型。除了遠離數據或退回到依賴直覺的時代，我們至少還有兩種可行的方式可以用於解決數據集與現實產出之間不完美的關係問題。

其中一種就是 moar 數據。長久以來，Facebook 一直在使用這種方案。當 Facebook 意識到用戶的「點贊」可能是一種假象的時候，他們開始往模型中加入更多的代理。他們開始考量其他方面的因素，比如用戶花了多少時間查看新聞源中的新聞、花了多少時間閱讀他們點開的故事、是在閱讀之前還是之後點的贊。Facebook 的工程師在優化這些度量指標上付出了很大的努力，但他們發現用戶仍然不是很滿意。於是 Facebook 添加了更多的度量指標，他們開始使用大型的用戶反饋面板，加入了表情包，用戶可以藉此表達微妙的情緒，他們還開始使用人工智慧技術來檢測文章中的標題黨內容。Facebook 也知道這些代理都是不完美的，但起碼通過增加這些代理，可以盡量地做到讓用戶看到他們想看的內容。

moar 數據的一個不足之處在於，它的門檻高，成本也高。另外，隨著不斷往模型里加入變數，整個方案會變得越來越複雜、不透明和難以理解。Pasquale 在他的「The Black Box Society」一書中已經提到了這個問題。即使是最完備的演算法，配上質量最好的數據集，也仍然會出錯，而一旦出了錯，診斷起來就幾乎是個不可能的任務。這裡還存在過擬合（overfit）和盲目自信的風險：你的模型越是複雜，它看起來就越是與你過去的經驗相吻合，你就越是會信任它，但最後也可能會給你造成越大的危險（想想次貸危機、選舉預測模型和 Zynga）。

另一種方案就是所謂的「小數據（small data）」。小數據指的是簡單的數據集，人們可以直接分析它們，不需要使用超級計算機或像 Hadoop 這樣的計算集群。就像「慢食物（slow food）」一樣，「小數據」是與「大數據」相對應的一種說法。

來自丹麥的作家兼市場顧問 Martin Lindstrom 在 2016 年出版的「Small Data: The Tiny Clues That Uncover Big Trends」一書中就列舉了小數據的例子。丹麥玩具製造商樂高在 90 年代末到 2000 年初改用大塊積木，包括他們的主題公園和視頻遊戲。他們基於大量的研究，認為千禧一代（出生於 80 年代和 90 年代的人）更傾向於立即得到滿足感，而且容易被簡單的玩具吸引。但這種做法並沒有奏效。基於數據驅動的方式最終在 2004 年被小規模的市場研究所代替，他們直接問小孩喜歡什麼。他們發現，小孩子更喜歡能夠展現他們技能的產品，比如一雙經過數百個小時滑板而穿舊的運動鞋。於是，樂高又重新用回了小塊積木，讓它重新煥發出光彩。

亞馬孫無處不在地展示著大數據的強大。數以億計的客戶有購買和瀏覽商品的習慣，由此產生的數據讓亞馬遜成為世界最為成功的零售商之一。Brad Stone 在他的「The Everything Store」一書中說道，亞馬遜 CEO Jeff Bezos 使用一種非常有趣的方式來平衡機器的分析結果。他定期收集一份來自客戶的投訴郵件，把它轉發給他的執行團隊，並要求團隊不僅要解決投訴問題，還要調查為什麼會發生這個投訴，並總結出一份報告。

這個故事說明 Bezos 心裡很清楚大數據不只是給他們的系統帶來了效率，同時也隱藏了一些問題。在你基於已了解的事物作出決定時，最安全的做法是同時確保對你不了解的事物保持警惕。ONeil 在一個電話採訪中說道，「問題最終總是歸結為——你沒有收集到哪些數據？也就是你看不到的那些」。

走出「大數據」的喧囂，我們才能看清它的優勢和不足。通過回顧，我們知道，數據感測器和數據計算能力突飛猛進式的發展為我們迎來了一個淘金熱，害怕在競爭中落後的情緒在很多時候會左右我們的注意力和謹慎的態度。有想法的人總是想盡辦法吸引我們的眼球，但最後一定會產生反作用力。

如果看過 Gartner 公司 2017 年炒作周期，你會發現「機器學習」和「深度學習」出現在最高的位置，另外還有「自動駕駛」和「虛擬助手」。它們都構建在大數據之上，完全依賴大數據。它們正引領突破性的變革，但我們可以肯定的是，它們也正犯下大錯。

閱讀英文原文：

http://www.slate.com/articles/technology/technology/2017/10/what_happened_to_big_data.html

－全文完－

關注人工智慧的落地實踐，與企業一起探尋 AI 的邊界，AICon 全球人工智慧技術大會火熱售票中，6 折倒計時一周搶票，詳情點擊：

https://aicon.geekbang.org/apply?utm_source=wechat&utm_medium=ai-front

《深入淺出TensorFlow》迷你書現已發布，關注公眾號「AI前線」，ID：ai-front，回復關鍵字：TF，獲取下載鏈接！