大數據熱潮是泡沫么？

01-08

最近大數據非常熱，數據科學家據說供不應求，甚至出現了六周的數據科學家速成班。有評論說大數據熱潮是泡沫，因為沒有可靠的根基，所以結論可靠性有欠缺，就像七十年代的人工智慧泡沫。不知道各位知友怎麼看。

不負責地說，凝聚態系統就是一個大數據系統。但我們只關心大數據後面的統計規律。

相反地，社會上關於大數據的宣傳，很多是根據大數據而獲得某個特定對象的特定細節信息。至少我不喜歡這種大數據的處理方式，這種數據的使用目的，對個人而言可能很方便，但是放在社會上太消耗計算資源了，個人電腦的配置現在大家都還嫌低呢。。另一方面，我也對這種技術抱有恐懼，個人隱私將變得廉價，人際圈將變得不在有安全感，而且個人在壟斷企業面前變得透明，壟斷企業在這方面不受約束，美名曰更好得為個人服務。。這些對於現代社會結構有巨大衝擊。

大數據有點像強關聯，概念提出了，但是我們根本不會做啊。。單粒子圖像和序參量仍然是我們的描述語言，在面對強關聯繫統的時候，直積態根本不好用啊，在物理圖像上的匱乏導致各種平均場理論，但是仍然在序參量的圈子裡轉。然後就只能搞計算，嚴格對角化還做不了大格子，蒙特卡洛也算不到零溫，只好將就一下做個重整化，但是也只能在相變點附近轉。。於是乎各種數學被物理學家拿進來，數學家也來湊合以一下。。總之我們還在等待新的數學進入這個圈子。。

不扯了。。怎麼說呢，個人覺得是有一點泡沫的感覺，但更多的是，這個概念的提出還為時過早，或大家過於樂觀了，參考銥星計劃。。目前個人計算終端的發展方向是越來越小型化，人性化。也許過上一段時間，計算力大大發展了，個人數據極大地豐富了，再站出來一個人指明計算和統計科學的發展方向是大數據方向可能更合適。反而對於大數據，我覺得這些統計規律倒是更有意思，統計物理學可能也大有用處，而且和現在的計算力相適應。。

首先大數據和機器學習／數據科學是不同層面的東西，是不能混在一起說的。數據不大的時機器學習一樣跑，誰說單機數據科學家就幹不了活？而大數據也不一定是要做什麼高大上的數據分析，為什麼不能只是簡單的統計或者呈現？

可能因為大數據這個詞太香，所以很多本不是大數據的事情也被扯進來了，如果對於這個劃分不清楚的話建議去關注微博上的「好東西傳送門」，他們團隊有兩個日報，一個是機器學習，一個是大數據（籌備中）。而像「數據科學家」，「人工智慧」什麼的都是屬於機器學習，並不歸屬於大數據。

從概念上來說，數據科學研究的是有沒有新的演算法，已有的演算法是否可以應用到新的領域，特定某個領域的數據自身的規律是什麼（人臉識別就是不斷強化對人臉照片的特徵的提取）；而大數據研究的是，曾經有個演算法只能在單機上跑只能處理1w條結果，現在可以在分散式集群上跑，可以處理1kw的數據，以前需要跑1個小時現在優化後只要10分鐘等。

兩個領域的競爭方式也是完全不同的，數據科學的競爭是像Competitions一樣，看大家誰可以在數據一樣的情況下給出更加好的預測結果。而大數據領域比拼就是，固定演算法看誰跑的快1/10計算資源，1/3耗時，Spark顛覆MapReduce保持的排序記錄-CSDN.NET

－－2015-1-23 更新到這裡，如果有人看的話後面再繼續寫

對了，我的結論是泡沫有，但是是歷史趨勢，不可逆轉

謝邀。引用我以前的答案：（如何評價大數據的未來？ - 何史提的回答）

現在大家都談大數據，但它是什麽卻是很模煳。
毫無疑問，妥當地分析和使用數據會創造財富，這也是為什麽統計學、機器學習那麽火紅，不過這些東西卻不是什麽新知識。可是近數年來，互聯網產生大量數據，數據之多使我們無法用Excel做分析，讓我們不得不使用這些高端的知識去處理數據。

另外，現在的CPU的速度十分快，而且科學家對平行運算也掌握得不錯，但瓶頸位在於讀寫數據，這也是Hadoop這一類軟體火紅的原因。
大數據這個詞可能很快便消失，但相關的技術會越來越被廣泛應用。

看看這個hype cycle，2014年8月版：

來源：Hugo E. Martin"s Blog : Hype Cycle

直覺上說，我覺得是的。世界是一片混沌（chaos），從混沌中發現規律是一種藝術，不單單是冰冷的數學模型和數值計算。

第一，泡沫是存在的，就像20世紀末的互聯網泡沫。但是有泡沫不代表沒有價值，相反，而是大家紛紛看到價值，投身其中，所以產生了泡沫。等大浪褪去之後，誰在裸泳就暴漏了。
第二，大數據就是統計學花了個說法？不統一，統計學研究的是小數據，數據質量很好，現在的「大數據」，缺失性很嚴重，數據量很大。方法論也非常不一樣。比如說logistic regression 在大數據時代，它的很多假設導致於在很多場景下都無法使用。

剛好今天在TED上看到了這一篇，供諸君品鑒。

大數據好處多 #TED : Kenneth Cukier: Big data is better data

在與大數據文摘給力的團隊的溝通與討論中，通過在數據領域有豐富經驗的專業人士的反饋，我對數據分析師的工作產生了新的理解。對於諮詢師和分析師來說，看到背後的聯繫、給出建議是特別重要的能力。之前我的理解里，可視化的意義就是不需要別人看文字，就能理解圖片在說什麼。對於一份 PPT 來說，就是每個圖片的標題應為圖表內容總結，且不超過兩行。但是發布一份報告和之前做 PPT 講給客戶不同，報告本身不能僅僅是分析結果的堆疊，而是需要引導別人看到分析中有價值的部分。如何用 2 周時間促成一次 1700+ 人參與的大數據行業調研

大數據有忽悠的成分，比如這個「大」字，是用來嚇唬客戶的。其實有沒有這個「大」字，沒什麼關係，數據分析是關鍵。

前段時間看到學校大牛教授Michael Jordan接受IEEE採訪的報道，以下是他的解答：

The main one will be a 「big-data winter.」 After a bubble, when people invested and a lot of companies overpromised without providing serious analysis, it will bust. And soon, in a two- to five-year span, people will say, 「The whole big-data thing came and went. It died. It was wrong.」 I am predicting that. It』s what happens in these cycles when there is too much hype, i.e., assertions not based on an understanding of what the real problems are or on an understanding that solving the problems will take decades, that we will make steady progress but that we haven』t had a major leap in technical progress. And then there will be a period during which it will be very hard to get resources to do data analysis. The field will continue to go forward, because it』s real, and it』s needed. But the backlash will hurt a large number of important projects. --Michael I. Jordan

(最主要的就會是一次「大數據的冬天」（暗指20 世紀七八十年代的「人工智慧的冬天」）。在一場泡沫之後——人們已經投了錢，一大批公司作了承諾卻又拿不出嚴肅的分析結果——泡沫會破碎。並且很快，在2~5 年間，人們就會說「大數據來了又走了，它死了，並且是錯的。」我預言的是那樣。

當炒作過了頭的時候，這就是在那些循環往複之中會發生的事情。這些炒作或者說斷言，既不是基於對真正的問題是什麼的理解，也不是基於解決問題可能要好幾十年或者說我們會取得逐步進展的理解，而是基於一種我們還沒有在技術進步中取得關鍵性跨越的理解。在此之後可能會有一個時期，獲取資源來做數據分析變得十分困難。（當然）這個領域會繼續發展，因為它是真實的也是有實際需求的。不過這種反彈勢必會對一大批重要的研究項目造成不利影響。) —— 翻譯來自加大伯克利分校著名科學家：大數據的「冬天」即將到來

附上全文：Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts

翻譯來自加大伯克利分校著名科學家：大數據的「冬天」即將到來：

IEEE S：現在我們不妨將話題轉到大數據上。您的言論中始終認為當前對大數據的執著里有把「黃銅當金子」的成分。比如您就曾預測公眾即將經歷一場大數據項目帶來虛警的「流行病」。

Michael I. Jordan：當你有了大量的數據之後，你就會想提出更多的假設。而一旦提出假設的速度超出了數據的統計內涵，那麼你的推斷里有很多都可能是錯誤的。它們也許就只是「白雜訊」。

IEEE S：為什麼會這樣？

Michael I. Jordan：在傳統的資料庫里，你有比方說幾千個人的數據。你不妨把他們看成資料庫中的行，而列就對應了這些人的屬性：年齡、身高、體重、收入等等。

現在，這些列的組合數目是以指數的速度隨著列數增加的。因此如果你有非常非常多的列（現代的資料庫里的確如此），那麼對每個人你都會得到數以百萬計的特性。

假如我現在開始查看這些屬性的所有組合——你是否在北京生活，是否騎自行車上班，是否從事某項工作，是否處於某個特定的年齡——那麼你得某種疾病或者你喜歡我的廣告的概率是多少呢？我將得到數以百萬計的屬性組合，並且這些組合的數目是指數級別的；它會達到宇宙中的原子數目的規模。

這些就是我想要考慮的假設。在任何一個特定的資料庫里，我都能找到這些列的某種組合來完美地預測任何結果，哪怕只是隨機地挑選。如果我只是查看所有發生過心梗的人，把他們同所有未發生過心梗的人作比較，並尋找可預測心臟病的列的組合，我就的確能夠找到列的各種各樣的疑似組合，這是因為它們數量龐大。

這就好像讓好幾十億隻猴子在那兒打字，總有一個會寫出莎士比亞。

IEEE S：您認為大數據的這一面目前沒有得到重視嗎？

Michael I. Jordan：當然。

IEEE S：有哪些東西是人們承諾大數據能帶來的而您認為其實是無法兌現的？

Michael I. Jordan：我認為數據分析能夠按某些質量標準發布一些推斷，然而我們必須交代清楚這些質量標準到底是什麼樣的。我們必須在我們所有的預測上加上誤差線，而這正是在目前很多機器學習文獻中所欠缺的。

IEEE S：如果處理數據的人並不理會您的建議會發生什麼情況呢？

Michael I. Jordan：我喜歡使用「造橋」來做類比。假設我不依從任何準則，毫無科學根據地建造了上千座橋樑，那麼它們有很多都會崩塌，造成巨大的災難。與此類似，假設人們使用數據並根據這些數據做出推斷而完全沒有考慮誤差線、數據異構、雜訊數據、採樣模式，以及所有那些作為一個工程師和統計學家必須慎重對待的事情，他們就會做出很多的預測，並且有很大可能會偶爾解決一些真正有意思的問題。但是時不時地還會做出一些災難性的糟糕決定。這其中的差別你事先是不會知道的。你就只能做出預測然後祈禱一切順利。

這就是我們的現狀。許多人在（用大數據）做一些事情，期望它們能有用，有時它們確實起

作用了。從某種意義上講，這麼做也無可指摘，這本就是探索性的工作。但是就整個社會而言，不能放任這種情況發展，我們不能只是「但願」它們有用，到頭來我們還是要給出切實的保證。

土木工程師最終學會了如何建造能夠持久屹立的橋樑。那麼說到大數據，我猜可能還要過幾十年才能形成一個真正的工程學方法，以便你能夠有一定程度的保證說，你正在公布合理的答案並且在對出錯的可能性進行量化分析。

IEEE S：我們現在有提供那些誤差線的工具嗎？

Michael I. Jordan：我們正在著手把這門工程科學組裝起來。我們有許多想法，它們來自於數百年的統計學和計算機科學的研究，我們正致力於把它們融合到一起，讓它們具有可擴展性。過去30年間湧現了許多關於如何控制所謂的「族群誤差」的想法，也就是在有多個假設的情況下想知道誤差率。但這些想法仍有許多還沒有從實際計算的角度進行研究。解決這些問題是很難的數學和工程課題，並且需要時間。

這不是一兩年的問題，而是需要幾十年才能做好。我們仍舊在學習如何用好大數據。

IEEE S：在閱讀關於大數據和醫療保健的報道時，差不多每三篇就有一篇在談我們將幾乎完全自動地靠著從每個人身上（尤其是通過「雲」）收集數據來獲得令人驚嘆的臨床診斷的發現。

Michael I. Jordan：對這種事，你既不能全盤懷疑也不能徹底樂觀，應該就在這兩個極端之間。但是如果你把某些數據分析中得到的假設全部列出來，那麼總有一部分是有用的，你只是不知道是哪一部分。

所以如果你隨便挑出幾條來——比如說「吃燕麥麩就不會得胃癌」之類的，因為從數據上看似乎如此，那麼你會有一些走運的機會。數據是能提供某種支持的。

但是這還是在賭博，除非你真的做了完整的工程統計分析來給出誤差線並且量化錯誤率。雖

然它比沒有數據就直接賭博要好些，那是純粹的輪盤賭。而這是一種部分的輪盤賭。

IEEE S：如果我們繼續在您描述的那條（錯誤的）軌跡上前進，大數據將會面對怎樣的不利後果？

Michael I. Jordan：最主要的就會是一次「大數據的冬天」（暗指20 世紀七八十年代的「人工智慧的冬天」）。在一場泡沫之後——人們已經投了錢，一大批公司作了承諾卻又拿不出嚴肅的分析結果——泡沫會破碎。並且很快，在2~5 年間，人們就會說「大數據來了又走了，它死了，並且是錯的。」我預言的是那樣。

大數據在那些人云亦云的群體的確是存在很大泡沫，很多行業和部門的人生搬硬湊把自己做的東西往大數據上靠，為的是搏一搏政績、申請一下專款，恰恰是那些正在做著和大數據相關的事情才不敢妄談大數據。

我理解大數據的目的：盡量去還原場景的真實性。現在最常見的解釋，比如4V的理論、啤酒尿布的案例、塔吉特孕婦的案例，其實都沒說明白這個目的，因為場景的真實性是不容易還原的。

在還原的過程中，要引入各類異構的數據，大量的歷史數據，這就需要例如hadoop/mpp這樣的大數據處理平台，然後構造客戶標籤，就需要熟練的業務知識、統計學知識、數據挖掘知識、數據量化知識，最後涉及到數據轉化成知識，就需要數據可視化、精準營銷等各類平台的配合。

這些工作即使都做好了，也只能說是盡量的去還原場景的真實性，離實際的真實還差著很遠很遠呢

看不到泡沫，只看到泡泡還太小。

大數據發展的核心動力，來源於人類測量、記錄和分析世界的渴望---《大數據時代》

互聯網發展一方面致力於提高效率，一方面重視積累，從量變到質變。比如信息革命提高了信息流動效率，互聯網金融提高了資源配置效率。

而這些玩法背後都是數據分析在支撐；應用大爆發、更低價智能手機，感測器價格下滑，帶來的是海量數據，這幾個因素是互相促進的。

所以我們看到了更好，更新的應用，如智能家居、如打車軟體、如更好的社交。

信息使生活更美好。

當然不是泡沫，往後要存儲的信息量越來越大，存儲和處理這些海量數據需要一套方法

個人以為大數據就是統計學換了個說法而已。