吳軍：落後最可怕的地方是思維方式的落後

04-24

計算機在解決各種智能問題上的進步幅度並不大，但是十幾年量的積累，最終促成了質變。

這個時代屬於大數據

簡單地講，當時無論是做語音識別、機器翻譯、圖像識別，還是自然語言理解的學者，分成了界限很明確的兩派，一派堅持採用傳統的人工智慧方法解決問題，簡單來講就是模仿人，另一派在倡導數據驅動方法。這兩派在不同的領域力量不一樣，在語音識別和自然語言理解領域，提倡數據驅動的派比較快地佔了上風；而在圖像識別和機器翻譯方面，在較長時間裡，數據驅動這一派處於下風。

這裡面主要的原因是，在圖像識別和機器翻譯領域，過去的數據量非常少，而這種數據的積累非常困難。圖像識別就不用講了，在互聯網出現之前，沒有一個實驗室有上百萬張圖片。在機器翻譯領域，所需要的數據除了一般的文本數據，還需要大量的雙語（甚至是多語種）對照的數據，而在互聯網出現之前，除了《聖經》和少量聯合國文件，再也找不到類似的數據了。

在20世紀90年代互聯網興起之後，數據的獲取變得非常容易。從1994年到2004年的10年里，語音識別的錯誤率減少了一半，而機器翻譯的準確性提高了一倍，其中20%左右的貢獻來自方法的改進，80%則來自數據量的提升。雖然在每一年，計算機在解決各種智能問題上的進步幅度並不大，但是十幾年量的積累，最終促成了質變。

數據驅動方法從20世紀70年代開始起步，在八九十年代得到緩慢但穩步的發展。進入21世紀後，由於互聯網的出現，使得可用的數據量劇增，數據驅動方法的優勢越來越明顯，最終完成了從量變到質變的飛躍。如今很多需要類似人類智能才能做的事情，計算機已經可以勝任了，這得益於數據量的增加。

全世界各個領域數據不斷向外擴展，漸漸形成了另外一個特點，那就是很多數據開始出現交叉，各個維度的數據從點和線漸漸連成了網，或者說，數據之間的關聯性極大地增強，在這樣的背景下，就出現了大數據。

智能手機和互聯網將繼續改變世界

大數據的時效性其實不是必需的，但是有了時效性可以做到很多過去做不到的事情，城市的智能交通管理便是一個例子。在智能手機和智能汽車（特斯拉等）出現之前，世界上的很多大城市雖然都有交通管理（或者控制）中心，但是它們能夠得到的交通路況信息最快也有20分鐘滯後。如果沒有能夠跟蹤足夠多的人出行情況的實時信息的工具，一個城市即使部署再多的採樣觀察點，再頻繁地報告各種交通事故和擁堵的情況，整體交通路況信息的實時性也不會比2007年有多大改進。

但是，在能夠定位的智能手機出現後，這種情況得到了根本的改變。由於智能手機足夠普及並且大部分用戶開放了他們的實時位置信息（符合大數據的完備性），使得做地圖服務的公司，比如Google或者百度，有可能實時地得到任何一個人口密度較大的城市的人員流動信息，並且根據其流動的速度和所在的位置，很容易區分步行的人群和行進的汽車。

由於收集信息的公司和提供地圖服務的公司是一家，因此從數據採集、數據處理，到信息發布中間的延時微乎其微，所提供的交通路況信息要及時得多。使用過Google地圖服務或者百度地圖服務的人，對比六七年前，都很明顯地感到了其中的差別。當然，更及時的信息可以通過分析歷史數據來預測。一些科研小組和公司的研發部門，已經開始利用一個城市交通狀況的歷史數據，結合實時數據，預測一段時間以內（比如一個小時）該城市各條道路可能出現的交通狀況，並且幫助出行者規劃最好的出行路線。

仔細推敲英語中bigdata這種說法，我們不得不承認這個提法非常準確，它最重要的是傳遞了一種信息——大數據是一種思維方式的改變。現在的數據量相比過去大了很多，量變帶來了質變，思維方式、做事情的方法就應該和以往有所不同。這其實是幫助我們理解大數據概念的一把鑰匙。在有大數據之前，計算機並不擅長解決需要人類智能來解決的問題，但是今天這些問題換個思路就可以解決了，其核心就是變智能問題為數據問題。由此，全世界開始了新的一輪技術革命——智能革命。

大數據更是一種思維方式革命

在方法論的層面，大數據是一種全新的思維方式。按照大數據的思維方式，我們做事情的方式與方法需要從根本上改變。

要說清楚大數據思維的重要性，需要先回顧一下自17世紀以來一直指導我們曰常做事行為的先前最重要的一種思維方式一一機械思維。今天說起機械思維，很多人馬上想到的是死板、僵化，覺得非常落伍，甚至「機械」本身都算不上什麼好詞。但是在兩個世紀之前，這可是一個時髦的詞，就如同今天我們說互聯網思維、大數據思維很時髦一樣。可以毫不誇張地汫，在過去的三個多世紀里，機械思維可以算得上是人類總結出的最重要的思維方式，也是現代文明的基礎。今天，很多人的行為方式和思維方式其實依然沒有擺離線械思維，儘管他們嘴上談論的是更時髦的概念。

那麼，機械思維是如何產生的？為什麼它的影響力能夠延伸至今，它和我們將要討論的大數據思維又有什麼關聯和本質區別呢？

不論經濟學家還是之前的托勒密、牛頓等人，他們都遵循著機械思維。如果我們把他們的方法論做一個簡單的概括，其核心思想有如下兩點：首先，需要有一個簡單的元模型，這個模型可能是假設出來的，然後再用這個元模型構建複雜的模型；其次，整個模型要和歷史數據相吻合。這在今天動態規劃管理學上還被廣泛地使用，其核心思想和托勒密的方法論是一致的。

後來人們將牛頓的方法論概括為機械思維，其核心思想可以概括成這樣幾句話：

第一，世界變化的規律是確定的，這一點從托勒密到牛頓大家都認可。

第二，因為有確定性做保障，因此規律不僅是可以被認識的，而且可以用簡單的公式或者語言描述清楚。這一點在牛頓之前，大部分人並不認可，而是簡單地把規律歸結為神的作用。

第三，這些規律應該是放之四海而皆準的，可以應用到各種未知領域指導實踐，這種認識是在牛頓之後才有的。

這些其實是機械思維中積極的部分。機械思維更廣泛的影響力是作為一種準則指導人們的行為，其核心思想可以概括成確定性（或者可預測性）和因果關係。牛頓可以把所有天體運動的規律用幾個定律講清楚，並且應用到任何場合都是正確的，這就是確定性。類似地，當我們給物體施加一個外力時，它就獲得一個加速度，而加速度的大小取決於外力和物體本身的質量，這是一種因果關係。沒有這些確定性和因果關係，我們就無法認識世界。

從牛頓開始，人類社會的進步在很大程度上得益於機械思維，但是到了信息時代，它的局限性也越來越明顯。首先，並非所有的規律都可以用簡單的原理描述；其次，像過去那樣找到因果關係已經變得非常困難，因為簡單的因果關係規律性都被發現了。另外，隨著人類對世界認識得越來越清楚，人們發現世界本身存在著很大的不確定性，並非如過去想像的那樣一切都是可以確定的。因此，在現代社會裡，人們開始考慮在承認不確定性的情況下如何取得科學上的突破，或者把事情做得更好。這也就導致一種新的方法論誕生。

不確定性在我們的世界裡無處不在。我們經常可以看到這樣一種怪現象，很多時候專家們對未來各種趨勢的預測是錯的，這在金融領域尤其常見。如果讀者有心統計一些經濟學家們對未來的看法，就會發現它們基本上是對錯各一半。這並不是因為他們缺乏專業知識，而是由於不確定性是這個世界的重要特徵，以至於我們按照傳統的方法——機械論的方法難以做出準確的預測。

世界的不確定性來自兩方面，首先是當我們對這個世界的方方面面了解得越來越細緻之後，會發現影響世界的變數其實非常多，已經無法通過簡單的辦法或者公式算出結果，因此我們寧願採用一些針對隨機事件的方法來處理它們，人為地把它們歸為不確定的一類。

反映出在信息時代的方法論：誰掌握了信息，誰就能夠獲取財富，這就如同在工業時代，誰掌握了資本誰就能獲取財富一樣。

當然，用不確定性這種眼光看待世界，再用信息消除不確定性，不僅能夠賺錢，而且能夠把很多智能型的問題轉化成信息處理的問題，具體說，就是利用信息來消除不確定性的問題。比如下象棋，每一種情況都有幾種可能，卻難以決定最終的選擇，這就是不確定性的表現。再比如要識別一個人臉的圖像，實際上可以看成是從有限種可能性中挑出一種，因為全世界的人數是有限的，這也就把識別問題變成了消除不確定性的問題。

大數據的本質

首先我們必須承認世界的不確定性，這樣我們就不會採用確定性的思維方式去面對一個不確定性的世界。當我們了解到信息或者說數據能夠消除不確定性之後，便能理解為什麼大數據的出現能夠解決那些智能的問題，因為很多智能問題從根本上來講無非是消除不確定性的問題。對於前面提到的大數據的三個特徵，即數據量大、多維度和完備性。在這個基礎之上，我們就能夠講清楚大數據的本質。

先談談數據量的問題。在過去，由於數據量不夠，即使使用了數據，依然不足以消除不確定性，因此數據的作用其實很有限，很多人忽視它的重要性是必然的。在那種情況下，哪個領域先積攢下足夠多的數據，它的研究進展就顯得快一些。具體到機器智能方面，語音識別是最早獲得比較多數據的領域，因此數據驅動的方法從這個領域產生也就不足為奇了。

關於大數據多維度的重要性問題，可以從兩個角度來看待它。第一個視角是「互信息」，為了獲得相關性通常需要多個維度的信息。比如我們要統計「央行調整利息」和「股市波動」的相關性，只有歷史上央行調整利息一個維度的信息顯然是不夠的，需要上述兩個維度的信息同時出現。第二個視角是所謂的「交叉驗證」，我們不妨看這樣一個例子：夏天的時候，如果我們感覺很悶熱，就知道可能要下雨了。也就是說，「空氣濕度較高」和「24小時內要下雨」之間的互信息較大。但是，這件事並非很確定，因為有些時候濕度大卻沒有下雨。不過，如果結合氣壓信息、雲圖信息等其他維度的信息，也能驗證「24小時內要下雨」這件事，那麼預測的準確性就要大很多。

最後，我們從資訊理論的角度來看看數據完備性的重要性。在大數據時代，在某個領域裡獲得數據的完備性還是可能的。比如在過去把全國所有人的面孔收集全是一件不可想像的事情，但是今天這件事情完全能做到。當數據的完備性具備了之後，就相當於訓練模型的數據集合和使用這個模型的測試集合是同一個集合，或者是高度重複的。在這種情況下，就不會出現覆蓋不了很多小概率事件的災難。

這樣數據驅動才具有普遍性，而不再是時靈時不靈的方法論。

由此可見，大數據的科學基礎是資訊理論，它的本質就是利用信息消除不確定性。雖然人類使用信息由來已久，但是到了大數據時代，量變帶來質變，以至於人們忽然發現，採用資訊理論的思維方式可以讓過去很多難題迎刃而解。

互聯網公司的爭奪和大數據應用

今天，各個搜索引擎都有一個度量用戶點擊數據和搜索結果相關性的模型，通常被稱為「點擊模型」。隨著數據量的積累，點擊模型對搜索結果排名的預測越來越準確，它的重要性也越來越大。今天，它在搜索排序中至少佔70%~80%的權重，也就是說搜索演算法中其他所有的因素加起來都不如它重要。換句話說，在今天的搜索引擎中，因果關係已經沒有數據的相關性重要了。

當然，點擊模型的準確性取決於數據量的大小。對於常見的搜索，比如「虛擬現實」，積累足夠多的用戶點擊數據並不需要太長的時間。但是，對於那些不太常見的搜索（通常也被稱為長尾搜索），比如「畢加索早期作品介紹」，需要很長的時間才能收集到「足夠多的數據」來訓練模型。一個搜索引擎使用的時間越長，數據的積累就越充分，對於這些長尾搜索就做得越準確。微軟的搜索引擎在很長的時間裡做不過Google的主要原因並不在於演算法本身，而是因為缺乏數據。同樣的道理，在中國，搜狗等小規模的搜索引擎相對百度最大的劣勢也在於數據量上。

當整個搜索行業都意識到點擊數據的重要性後，這個市場上的競爭就從技術競爭變成了數據競爭。這時，各公司的商業策略和產品策略就都圍繞著獲取數據、建立相關性而開展了。後進入搜索市場的公司要想不坐以待斃，唯一的辦法就是快速獲得數據。

比如微軟通過接手雅虎的搜索業務，將必應的搜索量從原來Google的10%左右陡然提升到Google的20%?30%，點擊模型估計得準確了許多，搜索質量迅速提高。但是即使做到這一點還是不夠的，因此一些公司想出了更激進的辦法，通過搜索條（Toolbar）、瀏覽器甚至輸入法來收集用戶的點擊行為。這種辦法的好處在於它不僅可以收集到用戶使用該公司搜索引擎本身的點擊數據，而且還能收集用戶使用其他搜索引擎的數據，比如微軟通過舊瀏覽器收集用戶使用Google搜索時的點擊情況。

這樣一來，如果一家公司能夠在瀏覽器市場占很大的份額，即使它的搜索量很小，也能收集大量的數據。有了這些數據，尤其是用戶在更好的搜索引擎上的點擊數據，一家搜索引擎公司可以快速改進長尾搜索的質量。當然，有人詬病必應的這種做法是「抄」Google的搜索結果，其實它並沒有直接抄，而是用Google的數據改進自己的點擊模型。這種事情在中國市場上也是一樣，因此，搜索質量的競爭就成了瀏覽器或者其他客戶端軟體市場佔有率的競爭。雖然在外人看來這些互聯網公司競爭的是技術，但更準確地講，它們是在數據層面競爭。

很多時候，落後與先進的差距，不是購買一些機器或者引進一些技術就能夠彌補的，落後最可怕的地方是思維方式的落後。西方在近代走在了世界前列，很大程度上靠的是思維方式全面領先。

機械思維曾經是改變了人類工作方式的革命性的方法論，並且在工業革命和後來全球工業化的過程中起到了決定性的作用，今天它在很多地方依然能指導我們的行動。如果我們能夠找到確定性（或者可預測性）和因果關係，這依然是最好的結果。但是，今天我們面臨的複雜情況，已經不是機械時代用幾個定律就能講清楚的了，不確定性，或者說難以找到確定性，是今天社會的常態。在無法確定因果關係時，數據為我們提供了解決問題的新方法，數據中所包含的信息可以幫助我們消除不確定性，而數據之間的相關性在某種程度上可以取代原來的因果關係，幫助我們得到我們想知道的答案，這便是大數據思維的核心。

大數據思維和原有機械思維並非完全對立，它更多的是對後者的補充。在新的時代，一定需要新的方法論，也一定會產生新的方法論。

在有大數據之前，我們尋找一個規律常常是很困難的，經常要經歷「假設——求證——再假設——再求證」這樣一個漫長的過程，而在找到規律後，應用到個案上的成本可能也是很高的。但是，有了大數據之後，這一類問題就變得簡單了。

比如通過對大量數據的統計直接找到正常用電模式和納稅模式，然後圈定那些用電模式異常的大麻種植者，或者有嫌疑的偷漏稅者。由於這種方法採用的是機器學習，依靠的是機器智能，大大降低了人工成本，因此執行的成本非常低。在美國有大量類似的報道，在各種媒體上都可以看到。

在大數據出現之前，並非我們得不到信息直接的關聯性，而是需要花費很長的時間才能收集到足夠多的數據，然後再花費更長的時間來驗證它，這也是過去大部分傳統的企業對於細節數據的收集和處理不是很重視的原因，相比之下他們更看重經驗和宏觀數據。但是到了大數據時代，這些企業的觀念也在慢慢轉變。

亞馬遜的優勢在於它擁有顧客全面的信息。比如張三上周買了一台數碼相機，之前他還購買了幾個玩具，同一個地址的李四前兩天買了嬰兒用的浴液。那麼可以聯想到張三和李四是一家人，他們有個出生不久的嬰兒，張三買數碼相機或許是為了給孩子照相。他們或許會對在線沖印照片（並做成賀年卡），或者電子相框有興趣。如果將他們的地址和美國個人住宅信息網站http://zillow.com聯繫起來，很容易了解到他們的住房價值，進而估計出他們的收入。這些條件是沃爾瑪不具備的。亞馬遜的第三個優勢在於它的任何市場策略都能馬上實現，比如它能夠隨時捆綁商品，並且隨時調整價格進行促銷；而美國所有的實體店，調整價格都需要在晚上關門之後進行，因此即使它們數據挖掘的速度和亞馬遜一樣快（當然這是不可能的），在市場上的反應也跟不上亞馬遜這樣的電商公司。

前面的幾個例子無一不是先從大數據找到普遍規律，然後再應用於每一個具體的用戶，並且影響到每一個具體的操作。以抓毒品種植和偷漏稅為例，警察局或者稅務局首先需要根據大數據了解用電或者納稅普遍的模式，然後要準確地估算出每一個地址正常的模式，這樣就能夠發現每一個異常的情況。

對於互聯網公司的那些應用也如此，那些公司可以對每一個用戶提供不同的服務，甚至做到每一次的服務都不相同。比如電商公司在用戶瀏覽印表機或者電動牙刷時，如果發現他們在閱讀產品介紹和評價，那麼可能用戶尚未完成購買，推薦相應的產品給用戶是合理的；而當用戶完成購買後，再搜索或瀏覽這些產品，推薦給用戶印表機墨盒或電動牙刷頭等耗材，就比推薦那些耐用產品本身更合理了。經常在亞馬遜上購物的人對這一點會有體會，不僅不同的人看到的網頁內容是不一樣的，而且同一個人今天和昨天看到的內容也是不一樣的，尤其是在完成一些購買行為之後。這種精細到每一次交易，甚至每一次內容展示的服務，在過去是想都不敢想的，但是靠大數據今天這已經變成了可能，而且它還代表著未來商業的趨勢。

通過這件事我們也能進一步體會大數據完備性的特點。在過去，統計學家們一直試圖尋找好的採樣方法，以便在有限的樣本中找到覆蓋儘可能全的規律，但是在大數據時代，這些努力都不需要了，因此樣本集可以等於全集。另外，我們還可以從這個案例中看到大數據時效性的特點。對於新的、過去沒有見過的情況，Google的伺服器反應是非常及時的，即在第二次就能把新鮮的數據提供給用戶使用，這在大數據時代之前也是做不到的。

Google在數據上的優勢，是大學和各個研究所並不具備的。即使是全球著名的汽車公司，包括豐田、大眾和美國通用，也不具備如此多的數據。因此，它們雖然在自動駕駛汽車研製方面早起步幾十年，但是很快就被Google超越。另外，計算機學習「經驗」的速度遠遠比人快得多，這也是大數據多維度的優勢，因此Google自動駕駛汽車的進步才能如此快。這並非說明Google的科研能力超過了過去那麼多大學、研究所和公司的總和，反而是體現出大數據的威力，以及採用大數據思維的重要性。

讓我們談談金風公司的故事。在和我進行了多次關於大數據時代商業模式的探討後，該公司決定向IBM學習，在商業模式上做根本性的轉變，主營業務從風力發電機的製造，轉變成發電設備的運營和服務。當然，並非什麼公司想做服務就能做得好並賺到錢，金風公司有底氣轉型，源於其在宏觀上對全球風能市場的了解，在微觀上對每一颱風能發電機運營細節的了解，加上通過大數據對發電機可能出現的問題的分析，能夠比一般工程公司更有效地維護髮電機。至於發電機的生產，該公司只負責研製，然後將設備製造交給其他公司去做。這樣一來，金風公司就在風力發電領域成功地複製了IBM服務的模式。大多數亞洲製造企業雖然在全球市場上占的份額不小，但是通常競爭的手段就是壓低利潤降價，最後把整個行業變得都沒有利潤。金風公司轉型的做法，或許能給這些企業一些啟發，當然如果沒有大數據這樣的機遇，這種轉型是非常困難的。

與金風公司面臨類似情況的還有諸多的電器生產廠商。這些電器無論是高端的還是低端的，廠家只能賺到一次錢，而且由於亞洲製造業同行相互壓價，利潤也不可能很高。為了解決利潤的問題，一些對新技術敏感的公司想到了利用大數據和移動互聯網來改變商業模式。

現有產業+摩爾定律=新產業

與前兩次工業革命類似，雖然信息革命的代表產品是計算機處理器，但是並不需要每一家公司都生產處理器，甚至不需要每一家公司自己開發軟體。今天大部分公司使用的處理器只有兩個系列，即英特爾x86系列（加上AMD兼容產品）和英國ARM公司設計的RISC（精簡指令集）處理器，因此計算機實際上可以被看成是一種資源，而大部分公司需要做的只是使用好這些資源而已。

我們回顧過去是為了展望未來。今後，由大數據引發的智能革命也將是以一種與前面幾次技術革命類似的方式展開，如果我們用兩個簡單的公式來概括的話，那就是：

現有產業+大數據=新產業

現有產業+機器智能=新產業

摩爾定律和安迪-比爾定律到了智能手機時代照樣適用，我們就不贅述了。

通過上述對歷次技術革命中商業模式變遷的分析，我們可以得到這樣三個結論：首先，技術革命導致商業模式的變化，尤其是新的商業模式的誕生。其次，生產越來越過剩，需求拉動經濟增長的模式變得不可逆轉。同時，單純製造業的利潤越來越低，那些行業越來越沒有出路。相反，人們對服務的需求越來越強烈。在IT時代，唱主角的公司逐漸從製造設備的IBM、愛立信、諾基亞和惠普等公司，變成了提供軟體和服務的微軟、甲骨文和Google等公司。最後，商業模式的變化既有繼承性，又有創新性。工業革命導致了產品需要靠推銷才能賣出去，第二次工業革命導致了廣告業的興起，推銷的方式從展示變成了做廣告，而這兩者之間是有聯繫的。作為創新的一方面，第二次工業革命導致了商業鏈的出現；到了信息時代，商業鏈得到了發展，這是繼承性的一面；而服務業的重要性突顯，這是其創新性的一面。