重新定義大數據，讀吳軍的《智能時代》

01-24

在現實中，無論是大數據，還是人工智慧，讓大家的認知要達成一致其實很難。

吳軍擅長的是用通俗易懂的語言解釋一些高大上的概念，大數據、人工智慧等概念被他這麼一解釋，的確更清晰了，無論是於有概念強迫症的同學，還是對於大數據持消極觀點的人，都可以讀一讀，如果大家經常需要跟領導解釋大數據的價值，希望遊說他，也可以學習下他的表述方法。

筆者結合最有啟發意義的一些內容，總結出六個觀點，與大家分享，一本書真正的精髓其實不多，當然見仁見智了。

觀點1：在建模上，只要數據量足夠，就可以用簡單的模型取代一個複雜的模型。

吳軍叫他「數據驅動方法」，概率論產生後，人們希望從理論上證明當觀察到的數據量足夠多了以後，隨機性和雜訊的影響可以忽略不計，19世界的俄國數據家切比雪夫對這個問題給出了肯定的回答，即切比雪夫不等式：

P(|X-E(X)|>=?)<?^2/n* ?^2

其中X是一個隨機變數，E(X)是該變數的數學期望值，n是樣本數，?是誤差，?^2是方差，這個公式的含義是，當樣本數足夠多時，一個隨機變數（比如觀察到的各個年齡段觀眾的比例）和它的數學期望值（真實情況）之間的誤差可以任意下。

在大多數複雜的應用中，需要通過數據建立起一個數學模型，以便在實際應用中使用，要建立模型需要解決兩個問題，首先是採用什麼模型，其次是模型的參數是多少。

模型的選擇不是一件容易的事，在過去，無論在理論上還是工程上，大家都把精力放在尋找模型上，有了模型後，第二步就是要找到模型的參數，這一點在過去的被重視程度遠不如找模型，今天它有了一個時髦的詞-機器學習。

鑒於完美的模型未必存在，即使存在，找到它也不容易，而且費時間，因此就有人考慮是否通過很多簡單不完美的模型湊在一起，起到完美模型的效果呢？

答案是肯定的，無論是切比雪夫不等式，還是工程實踐，都已經證明，只要找到足夠多的具有代表性的樣本（數據），就可以運用數學找到一個模型或者一組模型的組合，使得它和真實情況非常接近。

回到數據模型，這種方法被稱為數據驅動方法，因為它是先有大量的數據，而不是預設的模型，然後用很多簡單的模型去契合數據。

在今天的IT領域中，越來越多的問題可以用數據驅動方法來解決，具體講，就是當我們對一個問題暫時不能用簡單而準確的方法解決時，我們可以根據以往歷史數據，構造很多近似的模型來逼近真實情況，這實際上是用計算量和數據量來換取研究的時間，這種方法不僅僅是經驗論，它在數學上是有嚴格保障的。

數據驅動方法最大的優勢在於，它可以在最大程度上得益於計算機技術的進步，儘管數據驅動方法在一開始數據量不足，計算能力不夠時，可能顯得有些粗糙，但是隨著時間的推移，摩爾定律保證了計算能力和數量量以一個指數級增長的速度遞增，數據驅動方法可以非常準確，相比之下，很多其他方法的改進需要靠理論的突破，在過去30年，計算機變得越來越聰明，這並非因為我們對特定問題的認識有了多大的提高，而是因為在很大程度上我們靠的是數據量的增加。

沿著這個脈絡，我們能解釋很多的概念和現象，我們將統計學、機器學習、人工智慧基於大數據聯繫起來，我們能理解大數據導致質變的原因，理解為什麼要強調相關關係，理解雲計算的現實意義，理解為什麼AlphgoGo在理論沒什麼突破的前提下能夠讓人工智慧有個突破。

我們最終能理解大數據的巨大意義，肯定將帶來自工業革命，信息革命後的一次智能革命。

觀點2：人工智慧成功並非需要理解人類思考的方式，基於大數據的機器學習可以達到很高的境界。

努力去理解人是如何思考的方式叫做傳統的人工智慧，簡單來講，就是首先了解人類是如何產生智能的，然後讓計算機按照人的思路去做，今天幾乎所有的科學家都不堅持「機器要像人一樣思考才能獲得智能」，但是大多人仍然會望文生義，在談到人工智慧時依然想像著「機器在像我們那樣思考」，這讓他們既興奮又擔心，事實上，當我們再次回到圖靈博士描述機器智能的原點時發現，機器智能最重要的是能夠解決人腦所能解決的問題，而不在於是否需要採用和人一樣的方法。

這段話非常精闢，能解惑很多問題，比如我們現在的人工智慧提法是值得商榷的，叫它機器智能更好，在相當長的時間內也無需擔心機器人像人類那樣做可怕的事情。

如果你對於機器無法做到像人那樣思考有疑惑的話，這裡舉個例子，1968年，明斯基在《語義信息處理》一書中分析了所謂人工智慧的局限性：

The pen was in the box(鋼筆在盒子里),這句話很好理解，如果讓計算機理解它，做一個簡單的語法分析即可，但是另一句語法相同的話：The box was in the pen,就讓人頗為費解了，原來，在英文中，pen還有一個不常用的意思-小孩玩耍的圍欄，事實上，僅僅這兩句話本身，是無法判定pen在哪一句話中應該作為圍欄，在哪一句中應該是鋼筆的意思，事實上人對這兩句話的理解並非來自語法分析和語意本身，而是來自於他們的常識，這個問題是傳統人工智慧方法解決不了的。

語音識別作為人工智慧最核心的研究課題，歷史以來基於語法規則和語意規則的方法從來達不到實用的水平，而基於統計學的機器學習卻將其提升到一個新的水平，也就是說，與其讓機器按照人一樣去學習語法，還不如基於大量的數據採用統計的機器學習方法來解決，也就是上面提到的數據驅動方法，這種方法的本質就是假如世界上大多數這麼說，匹配越多的就用這種意思，其核心就是需要足夠多的數據來訓練，通信上用馬爾科夫模型解決通信編解碼問題，同樣可以適用於語音識別。

Google當前在人工智慧很多領域能一騎絕塵，不是說他方法有多先進，而恰恰是其數據上的優勢，未來是BAT的，也帶有這份意味，假如我們再造一個BAT，也不可能再追上了原來的了，因為前者數據積累的優勢太大了。

觀點3：機械思維讓我們覺得這個世界是確定的，是強調因果的，並且創造了輝煌的工業時代，但愛因斯坦的「上帝不擲色子」是錯的。

思維方式決定科學成就，正是有了機械思維，才直接帶來工業大革命的時代，從歐幾里得、托勒密到牛頓，牛頓是集大成者，其核心思想可以概括成這幾句話：

第一，世界變化的規律是確定的，這一點從托勒密到牛頓大家都認可。

第二，因為有確定性做保障，因為規律不僅是可以被認識的，而且可以用簡單的公式或者語言描述清楚，這一點在牛頓之前，大部分人並不認可，而是簡單地把規律歸結為神的作用。

第三，這些規律應該是放之四海而皆準的，可以應用到各種未知領域指導實踐，這種認識是在牛頓之後才有的。

歐幾里得的公理化體系幾何學，是對世界影響力最大的一本書，不僅為幾何學、數學和自然科學後來的發展奠定了基礎，而且對西方人的整個思維方法都有極大的影響，甚至在法學界，整個羅馬法都是建立在類似於歐幾里得公理系統這樣的基礎上的。

托勒密創立了地心說，在近代史最偉大的天文學家，其方法論可以被概括為「通過觀察獲得數學模型的雛形，然後利用數據來細化模型」，直到今天，我們做事情的時候還是會首先想到這種方法，比如幾乎所有的經濟學家理論，都是按照這種方法提出來的，其核心思想有如下兩點：首先，需要有一個簡單的元模型，這個模型可能是假設出來的，然後再用這個元模型構建複雜的模型，其次，整個模型要和歷史數據相符合。

東方的中國和阿拉伯帝國雖然在工程和技術上不斷進步，但是既沒有形成科學體系，也沒有在方法論上作出太多的貢獻，最終，發展科學方法的任務留給了笛卡爾和牛頓，笛卡爾提出了科學的方法論，即大膽假設，小心求證，這個方法論在我們今天的工作中還在使用。

現代工業無論是瓦特的蒸汽機、還是史蒂芬孫的火車，都是機械思維的產物，其核心思想又可以概括成確定性（或者可預測性）和因果關係。牛頓可以把所有天體運動的規律用幾個定律說清楚，並且應用到任何場合都是正確的，這就是確定性，類似的，當我們對物體施加一個外力時，它獲得一個加速度，而加速度大小取決於外力和物體本身的質量，這是一種因果關係，沒有這些確定性和因果關係，我們就無法認識世界。

如同我們今天在談論大數據思維和互聯網思維時無意中會帶有一種優越感一樣，在19世界，機械思維是一個時髦的辭彙，人們喜歡用這個詞表示自己對近代科技的了解和所具有的理性精神。

愛因斯坦是機械思維的集大成者，是確定性和因果關係的推崇者，但牛頓和愛因斯坦能找到因果關係的原因，除了有過人的智慧外，他們的運氣還特別好，或者說靈光一現，如果說牛頓被蘋果砸中是杜撰出來的，那麼愛因斯坦從白日夢中獲得另類想法搞清楚了廣義相對論卻是真實的事情，這個例子說明，人類找到真正的因果關係是一件很難的事情，裡面的運氣成分很大，因此機械思維在認識世界還是有很多的局限性的。

愛因斯坦有句名言-「上帝不擲色子」，這是他在和量子力學發明人波爾等人爭論時的話，說明了機械思維否認不確定性和不可認知性，今天我們知道，在這場爭論中，波爾等人是正確的，上帝也擲色子。

觀點4：這個世界本質是不確定性的，且基於資訊理論，可以用數據消除不確定性，其代表了人類對我們的世界認知度的最高境界。

不確定性在我們的世界無處不在，很多時候專家對未來的各種趨勢預測是錯的，如果細心的讀者統計，就會發現基本上對錯一半，這不是因為他們缺乏專業知識，而是由於不確定性是這個世界的重要特徵，以至於我們按照傳統搞機械論的方法難以做出準確的預測。

世界的不確定性來自於兩個方面，首先是我們對這個世界的方方面面了解得越來越細緻之後，會發現影響世界的變數其實非常多，已經無法通過簡單的辦法或公式計算結果，因此寧願採用一些針對隨機事件的方法來處理它們，比如我們在平整的桌子上擲一次色子，在其停穩之前，我們一般認為無法知道到底哪一面朝上，哪一面朝下，但是其實在色子離開手的瞬間，如果能知道色子準確的形狀和密度分布，出手的力量和旋轉的角速度、空氣流動的速度，同時我們的計算足夠精準，其實我們是能知道色子的哪個點或面接觸到桌面的，如果我們還知道桌面的彈性係數和色子的彈性係數，以及這兩種材質的物理性質等因素，我們就能夠計算出色子彈起的高度和方向，最終計算出它停下來時哪一面朝上。

但是，由於裡面很多細節難以準確測量，比如出手的速度和力量，因此考慮了所有因素計算出來的未必準確，在這種情況下，一般人乾脆假定色子每一面朝上的概率是1/6。

不確定性的第二個因素來自客觀世界本身，它是宇宙的一個特性，在微觀世界裡，電子在圍繞原子核做高速運動時，我們不可能同時準確地測量出它在某一時刻的位置和運動速度，當然也就不能描繪出它的運動軌跡了，這並非我們的儀器不夠準確，而是因為這是原子本身的特性，在量子力學中有一個測不準原理，這與機械思維所認定的世界的確定性是相違背的。為什麼呢？因為我們測量活動本身影響了被測量的結果，對於股市操作也類似，當有人按照某個理論買或者賣股票時，其實給股市帶來了一個相反的推動力，這導致股市在微觀上的走向和理論預測的方向相反。

如果世界充滿了不確定性，我們對未來世界的認識是否回到了牛頓之前的不可知狀態？答案是否定的，就拿微觀世界電子運動來說，雖然我們無法確定電子的準確位置和速度，但是能夠知道它在一定時間內在核外空間各處出現的概率，在概率論的基礎上，香農博士建立了一套完整的理論，將世界的不確定和信息聯繫了起來，這就是資訊理論，資訊理論不僅是通信的理論，也給了人們一種看待世界和處理問題的新思路。

香農在資訊理論中借用熱力學裡熵的概念，用熵來描述一個信息系統的不確定性，接下來香農指出，信息量與不確定性有關：假如我們需要搞清楚一件非常不確定的事，就需要了解大量的信息，可以認為，信息量的度量就等於不確定性的多少，想消除系統內的不確定性，就要引入信息。

與機械思維是建立在一種確定性的基礎上鎖截然不同的是，資訊理論完全建立在不確定基礎上，這種思路成為信息時代做事情的根本方法，不妨用互聯網廣告的例子來說明上述原理的作用。

在我們對用戶一無所知的情況下，在網頁投放展示廣告，點擊率非常低，每1000次展示也只能賺到不到0.5美元的廣告費，因為這等於猜測用戶的需求，很不準確，如果我們10萬眾廣告，只有10種與用戶相關，那麼猜中的可能性就是萬分之一，如果用資訊理論來度量，它的不確定性為14比特左右。

搜素廣告因為有用戶輸入的關鍵詞，準確率會大幅提高，至於提高了多少，取決於關鍵詞所提供的信息量，以漢字詞為例，如果一個搜素輸入兩個詞，每個詞平均兩個漢字，那麼大約能提供10-12比特的信息量，這樣大部分不確定就消除了，假定還從10萬種廣告中猜中10個，猜中的可能性就是十幾分之一到幾分之一，因此讀者點擊的可能性大增，在實際情況中，Google搜素廣告每1000次展示所帶來的收入大約50美元，比展示廣告高出兩個數量級，這就說明了信息的作用。類似的，像Facebook通過挖掘註冊用戶的使用習慣，大致能獲得1-2比特的信息量，這樣就將廣告匹配的難度下降了一半左右。

上面雖然是一個特定的例子，但是反映出在信息時代的方法論，誰掌握了信息，誰就能夠獲得財富，如果工業時代，誰掌握了資本誰就獲取財富一樣。用不確定性這種眼光看世界，再用信息消除不確定性，不僅能夠賺錢，而且能夠把很多智能型的問題轉化為信息處理問題，具體說，就是利用信息消除不確定性的問題，比如下棋，識別圖像等，都是從眾多不確定的落子點或全世界人數中去選擇一個。

資訊理論中有一個重要概念-互信息，可以解釋為什麼信息的相關性可以幫助我們消除不確定性，比如通過對大數據文本進行統計發現，「央行調整利率」和「股市短期浮動」的互信息很大，這證實了它們之間有非常強的相關性。

有了資訊理論這樣一個工具和方法論後，我們便很容易認清大數據的本質了。首先必須承認世界的不確定性，這樣我們就不會採用確定性的思維方式去面對一個不確定的世界，當我們了解到信息或者說數據能夠消除不確定性之後，更能理解為什麼大數據的出現能夠解決那些智能的問題，因為很多智能問題從根本來講無非是消除不確定性的問題。

實在無法確定因果關係時，數據間的相關性能幫助我們得到想要的答案，這是大數據時代的思維革命。

觀點5：大數據的本質特徵，數量大、多維度和完備性，並不是空穴來風，可以從資訊理論找到答案。

過去，數據量不夠不足以消除不確定性，因此數據的作用其實有限，很多人忽視它的重要性是必然的，哪個領域限積攢下足夠的數據，它的研究進展就快一些，具體到機器智能，語音識別是最早獲得較多數據的領域，因此數據驅動的方法從這個領域產生也就不足為奇了。

關於數據多維度的重要性問題，可以從兩個角度看它，第一是前面提及的互信息，為了獲得相關性通常需要更多維度的信息，第二個視角是所謂的交叉驗證，比如夏天我們感覺天氣悶熱會下雨，但這個信息還不夠，如果結合氣壓信息、雲圖等多維信息，那麼預測的準確性就要大得多，因此大數據多維性的重要性，也是有資訊理論做理論基礎的。

最後，我們從資訊理論的角度看數據完備性的重要性，資訊理論中有一個重要的概念-交叉熵，它反映兩個信息源之間的一致性，當兩個數據源完全一致時，交叉熵等於零，反之則很大，所有採用數據驅動的方法，建立模型所使用的數據和使用模型的數據之間需要一致性，否則這種方法就會失效，在過去，任何基於概率統計的模型都有小概率事件覆蓋不到，這被認為是數據驅動方法的死穴，很多學科叫它「黑天鵝效應」，從數據完備性的角度講，就是如果能確保訓練模型的數據和使用這個模型的測試集合是同一個集合，就可能消滅黑天鵝現象。

觀點6：從因果關係到強相關關係，轉變思維方式很重要，這樣才能更好的改變世界。

邏輯推理能力是人類特有的本領，給出原因，我們能夠通過邏輯推理得到結果，在過去，我們一直非常強調因果關係，一方面是習慣，另一方面是如果我們找不出原因，常常會覺得結果不是非常可信。

按照因果關係，很多研究將不可能找到答案或者花費巨大的成本，這是無法推動社會快速進步的，以研製新葯為例，為了尋找因果關係，一種處方葯的研製至少需要20年的時間，花費20億美元的投入，這就不奇怪為什麼有效的新葯價格非常昂貴了。

在過去，由於數量量有限，而且常常不是多維度的，相關性很難找得到，即使找到了，人們也未必接受，因為這和傳統觀念不同。比如20世紀90年代中期，美國和加拿大圍繞香煙是否對人體有害這件事情的一些列訴訟上，如何判定吸煙是否有害是這些案件的關鍵，是採用因果還是採用相關性，決定了判決結果。

在今天一般人看來，吸煙對人體有害，是板上釘釘的事實，但即使存在大量的相關性鐵證，依然「不足夠」以此判定煙草公司有罪，因為他們認為吸煙和肺癌沒有因果關係，煙草公司有很多理由來辯解，比如一些人所以吸煙，是因為身體某部分基因缺乏，而導致肺癌的，是這種基因缺陷，而非煙草中的某些物質，法律上講，這種解釋站得住腳。

但1997年，煙草公司和各州達成和解，統一賠償3655億美元，這場歷史性勝利的背後，並不是由於找到了因果關係，恰恰是依然採用了統計上強相關性的證據，在這場訴訟中，其實人們的思維方式已經從接受因果關係，轉到接受強相關關係上來了。

我們前面提到，這個世界本質是不確定性的，能找到因果關係固然好，但對於複雜的問題，難度非常大，除了物質條件、人們的努力、還要靠運氣，遺憾的是，大部分時候我們並沒有靈感和運氣，因此，很多問題得不到解決。

可以看到，Google公司的廣告推薦演算法當前靠因果關係提升佔比已經越來越低，更多的是強調相關性的點擊率演算法，當前任何電商網站的推薦演算法基本也是以協同演算法為核心的，在速度和準度要求越來越高的互聯網，強調因果關係來解決問題是不現實的，隨著整個社會數據越來越多，用相關性來解決問題的方法必將席捲全行業。

大數據相關性的提法歷來爭議很大，吳軍不緊不慢，娓娓道來緣由，還是很有說服力，今天我們面臨的複雜情況，已經不是機械時代用幾個定律就能講清楚的了，不確定性，是今天社會的常態，在無法確定因果關係時，數據為我們提供了解決問題的新方法，數據中所包含的信息幫助我們消除不確定性，而數據之間的相關性在某種程度可以取代原來的因果關係，幫助我們得到我們想知道的答案，這便是大數據思維的核心，其與原來的機械思維並非完全對立，更多是對後者的補充，在新的時代，一定需要新的方法論，也一定會產生新的方法論。

觀點7：爭當2%的人。

這一次由機器智能帶來的革命，對社會的衝擊將是全方位的，我們所依賴的那些所謂需要智力的工作也在消失，即使有新的行業出現，由於機器智能的影響，它所需要的就業人數相比過去的老行業也會少很多，在智能革命全面到來的時候，不可能像過去那樣，把農業人口變成城市人口，把第一、第二產業變成第三產業那麼簡單。

雖然不知道如何在短期內消化幾十億勞動力的產業，但有個答案很簡單，就是爭當2%的人，在歷次技術革命中，一個人，一家企業，甚至一個國家，可以選擇的道路只有2條，要麼進入前2%的行列，要麼被淘汰。抱怨是沒有用的，至於當下怎麼才能成為這2%，其實很簡單，是踏上智能革命的浪潮。

任何一次技術革命，最初受益的都是發展它、使用它的人，而遠離它、拒絕接受它的人，在很長時間裡都將是迷茫的一代，這將是一個讓我們振奮的時代，也是一個給我們帶來空前挑戰的時代。

如果你能讀到這裡，就給個贊，很多人關於大數據有自己的獨到看法，不喜歡被說教，諸如相關關係啥的，也被噴的厲害，但正如吳軍在《矽谷來信》中提到的一樣，我們需要有科學的求證精神，但科學從來不代表正確，我倒覺得前面的一些說法，的確給人以一些新的啟示。

文 | 傅一平

原文出自：微信公眾號與數據同行