利用大數據進行決策，是否有效可行？

12-31

近日來，大數據異常火熱，雖然這是一個舊話重提的概念，但是 netflix 的《紙牌屋》持續走高，似乎也側面印證了大數據的真實性。
不過我的問題是，大數據真的猶如宣傳那樣高大上，可以用來進行決策嗎？它是否真實有效的反映了事實？根據它做決策，是否會被一葉障目？
如果我的觀點錯誤，請反駁；如果正確，請提出關於大數據的反例，謝謝。
補充：聽聞某個案例，nokia為了改進功能機，聽取了n多人的意見，以及消費者日常使用情況，然後歸納總結，終於推出了帶有手電筒功能的一代神機，nokia以為可以高枕無憂了。，可是依然讓apple打的一敗塗地。

如果討論大數據在問題決策中的作用，就首先要對問題進行分類：

I類問題，是人能做機器不能做的。例如音樂、繪畫、寫作、攝影、辯論、戲劇等等，針對這部分問題，大數據的意義自然是非常有限的。
II類問題，機器能做，而人很難做到的。例如：google的廣告投放，人是無法在海量數據中找到惡意點擊騙錢的，也無法給海量的廣告排名；阿里小貸，三分鐘內判斷信用，計算額度並且無抵押放款；高頻交易，最高每秒數千次的證券買賣。針對這類問題，大數據自然意義非凡，大展身手。
III類問題，機器也能做，人也能做。有時候機器做的好，人來進行輔助校驗和決策；有時候人做的好，機器提供有用的數據。平時的事情大多數是這類問題，這是由於問題的複雜性所決定的。比如人臉識別；比如有監督的機器學習需要人工標記樣本；比如日常公司運營、企業管理需要數據提供支持。這類問題中大數據是輔助決策的，但不能取代人獨立決策。

問題中的兩個問題，都是 I類問題。

《紙牌屋》的拍攝，不論是導演、演員、編劇、攝影、燈光，林林總總的角色，都不是機器能做的。只是因為好萊塢的影視拍攝的高度產業化，讓大家忽略了這些。而決定拍什麼題材，其實並不是決定性的關鍵因素。所以，即便是netflix自己，也很難複製同樣的事兒。

諾基亞就更不用說了，這麼複雜的商業行為，壓根不是一兩件事能影響的。這裡可以引用《浪潮之巔》里的一段描述：

諾基亞進入智能領域不僅早於它的同行、老對手摩托羅拉和三星等公司，而且早於兩個新的闖入者蘋果和Google。事實上，它很早就注意到了操作系統對於智能手機的重要性，同事收購了基於Linux內核的Symbian手機操作系統。……
遺憾的是，一代技術革命是一個馬拉松式的長過程。諾基亞第一次的戰術勝利反而讓它在戰略上非常被動，它把所有的傳統手機生產廠商推到了它的對立面。諾基亞一廂情願的希望其他手機廠商採用它的Symbian操作系統，並且受它的控制，但是這無異於天方夜譚。這些在智能手機操作系統無建樹，而又不得不進入這個市場的廠商，無一例外的選擇了和它們沒有利益衝突的Android——同樣是基於Linux內核的開源操作系統。

小註：

雖然問題中的兩個問題是明確的I類問題，但三個分類之間並沒有特別清晰的分界。劃分是為了便於理解。
三類問題會相互轉化，大趨勢是I類 -&> III類 -&> II類。這個趨勢是通過科技進步、更細的分工、管理規範化來實現的

如果您非相關專業、行業的人士，而無意中看到這個答案的話，首先希望您不要被文中一些公式表達而放棄，本文中會盡量避免涉及複雜的公式，只要知道各自代表什麼現實含義即可。

為了回答好這個問題，我們需要先從傳統的數據決策談起，然後參照《大數據時代》作者舍恩伯格的三大觀點來談大數據決策。

一、數據決策：

我在問題：怎麼看待 PM 拿數據說話這回事？如何做數據分析？中提到了「風險性決策的最優方案」的模型，（如果摘要難讀，可以參見原文，因為原文配有案例說明）。

摘要如下:

1、採集的樣本量的問題。
主要是樣本量不夠全面（包括樣本數量不夠大以及樣本不具備足夠的代表性），導致數據不可信。這種情況，我把其分為兩種相對「極端」的理論：
其一是黑天鵝理論，其理論的基本依據即是：我們所有的結論都是基於先前已有的經驗，這樣很容易讓人忽略之前沒有出現過的現象。即無論樣本量多大，考慮到時間空間的無限性，樣本量總歸是相對不夠的。這個理論的例子可以用哲學上比較有名的那句話：「你不知道明天太陽是否還會照常升起」來加以說明。

另外一種，我稱之為伯格森理論，他認為科學對生命的描述是分裂的，比如我們會描述性格、描述外形、描述智商，當時一切的描述都是片面的屬性，而人是整體的，所以所有對生命的描述都是旁觀的，不全面不準確的。數據採集也面臨這樣的問題，採集的數據通常不是不對，而是不全面。而人類本能地過多看中容易獲取的數字，而低估難以獲取數據的價值，也通常會造成樣本量不全面的問題。

2、數據預處理的問題：
1、簡化或者扭曲某系相關因素。
關於簡化，最常見的經濟學上的「不考慮交易成本的完全競爭理論」；而關於扭曲，最常見的就是將「相關性」與「因果關係」混淆，得出類似"擁有自己獨立辦公大樓的公司更容易成功"的結論。
2、相關因素難以量化的問題。
比如一個公司「創新能力」「人力資源管理」對公司業績的貢獻度問題。

同時，我提出了一個最簡單的模型作為例子分析其中可能存在的問題：

模型的構建與評估
「3、考慮一個涉及風險性決策的問題時，我們首先需要一個效益函數，簡化起見，我們用線性的函數來大致的描述：
$Y=a_{1}x_{1}+ a_{2}x_{2}+a_{3}x_{3}+a_{4}x_{4}+...$

這就引出3個重要的內容：
1、我們的目標Y是什麼
2、影響目標Y的各種因素 $x_{i}$ 是什麼
3、各類因素對Y的影響權重 $a_{i}$ 是多少
4、考慮風險因素，也就是概率問題。
為了避免引入過多的數學公式，在此不展開概率矩陣，大致說明一下：
我們可以把： $Y=a_{1}x_{1}+ a_{2}x_{2}+a_{3}x_{3}+a_{4}x_{4}+...$ 看成一種概率下的函數；同樣的，在其它的概率條件 $P_{i}$ 下還存在著很多的 $Y_{i}$ 的函數。
而人們通常會選擇性地只看到對自己有利的概率事件，忽略對自己不利的概率事件。

5、考慮可執行性。
這一問題在簡化的數學模型上通常不會被提到，但是在現實世界中，我們需要從技術上、經濟上、心理上三個層面的數據支撐，確保項目的可執行性。
回到效益函數上來： $Y=a_{1}x_{1}+ a_{2}x_{2}+a_{3}x_{3}+a_{4}x_{4}+...$
假設我們確定了需要調整因素 $x_{i}$ ，那麼我們需要針對因素 $x_{i}$ 構建一個模型，確保因素 $x_{i}$ 在技術上、經濟上、消費者心理上是可以被接受的。

以上便是數據模型的簡要過程，這其中主體即為「樣本採集與預處理」、「模型的構建與評估」，整個過程都指出一點：「一般的，針對現實問題進行數據決策過程中，難以避免會受到人類不可控的主觀的因素的影響。」

我在問題：為什麼 Flappy Bird 這麼難，玩的人也這麼多？中的回答也可以作為上述決策中的一個論據案例來支撐。

然後，我們再來談談「大數據」時代，給上述過程帶來的變化。

雖然我向來愛吐槽《大數據時代》一書，說維克托?邁爾?舍恩伯格是一個可以把三句話的乾貨變成厚厚一本書的人。然後，他對大數據時代的三句話的總結確實精闢，我們用以來清晰地俯瞰「大數據」時代席捲而來的變化：

第一個轉變就是，在大數據時代，我們可以分析更多的數據，有時候甚至可以處理和某個特別現象相關的所有數據，而不再依賴於隨機採樣。
第二個改變就是，研究數據如此之多，以至於我們不再熱衷於追求精確度。
第三個轉變因前兩個轉變而促成，即我們不再熱衷於尋找因果關係。

接下來，我們可以參照舍恩伯格的3點概要，來一一對照傳統的數據決策的過程，看看整個發生了什麼變化。

1、採集的樣本量的問題。

這個過程，因為舍恩伯格的「第一個轉變」，而得到極大的改進。

2、數據預處理的問題：

1、簡化或者扭曲某系相關因素。

這個過程，因為舍恩伯格的「第三個轉變」，而得到改進。

2、相關因素難以量化的問題。

這個過程，因為舍恩伯格的「第二個轉變」，而得到改進，從而避免了人類主觀判斷的不準確性。

「3、考慮一個涉及風險性決策的問題時，我們首先需要一個效益函數，簡化起見，我們用線性的函數來大致的描述：

$Y=a_{1}x_{1}+ a_{2}x_{2}+a_{3}x_{3}+a_{4}x_{4}+...$

這就引出3個重要的內容：

1、我們的目標Y是什麼

2、影響目標Y的各種因素 $x_{i}$ 是什麼

3、各類因素對Y的影響權重 $a_{i}$ 是多少

這個過程，舍恩伯格的「第一個轉變」「第二個轉變」而使得2、3兩點得到解決，至於第1點中可能存在的多目標的並存的問題，則大數據恐怕難以改進。

4、考慮風險因素，也就是概率問題。
為了避免引入過多的數學公式，在此不展開概率矩陣，大致說明一下：

我們可以把： $Y=a_{1}x_{1}+ a_{2}x_{2}+a_{3}x_{3}+a_{4}x_{4}+...$ 看成一種概率下的函數；同樣的，在其它的概率條件 $P_{i}$ 下還存在著很多的 $Y_{i}$ 的函數。

而人們通常會選擇性地只看到對自己有利的概率事件，忽略對自己不利的概率事件。

這個過程，同樣可以因為舍恩伯格的「第二個轉變」，而使得 $P_{i}$ 值的精確度得到改進。且全大數據決策也將會避免人腦決策中存在的偏好問題。

5、考慮可執行性。
這一問題在簡化的數學模型上通常不會被提到，但是在現實世界中，我們需要從技術上、經濟上、心理上三個層面的數據支撐，確保項目的可執行性。

回到效益函數上來： $Y=a_{1}x_{1}+ a_{2}x_{2}+a_{3}x_{3}+a_{4}x_{4}+...$

假設我們確定了需要調整因素 $x_{i}$ ，那麼我們需要針對因素 $x_{i}$ 構建一個模型，確保因素 $x_{i}$ 在技術上、經濟上、消費者心理上是可以被接受的。

深挖一下「技術上能否實現」其實就涉及到「創新」的問題，而大數據更多是針對「歷史情況」做出最佳預測，所以往往是「改進產品」而不是「創新產品」。

而關於「消費者心理」，其本質涉及「個性」與「共性」的差異，「大數據」經過數據挖掘後提供的往往是「大眾的最佳產品」而不是「少量的長尾的個性產品」。同時，人類的「審美觀」也是一個難以數據化的因素。

所以這一步中涉及到的「技術上能否實現」、「消費者心理上能否接受」其實是很難通過大數據來驗證的，這也是「大數據」的無能之處。

「大數據決策」的這兩個軟肋，與 @孫文亮的上述回答中的分類，實則殊途同歸。

上面的分析還漏掉了一個過程，就是在第3步的時候，我們是直接假設了一個多元線性的模型，而實際中構建什麼樣的模型往往需要我們去根據歷史經驗、數據的圖形表現來人為拼湊。那麼「大數據決策」能否改進模型的建立過程呢？這裡我們穿插一個來自《量子物理史話》裡面的一個有意思的故事：

物理學家維恩從經典熱力學的思想出發，加上黑體輻射式由一些服從麥克斯韋速率分布的分子發射出來的，由此推導出輻射能量分布定律，也稱作維恩分布公式，但是這個公式在長波範圍內失效的。
維恩分布公式在長波範圍內的失效引起了物理學家瑞利和金斯的注意，瑞利拋棄了分子運動的假設，簡單地從經典的麥克斯韋理論出發，並最終得到了瑞利-金斯公式，但是這個公式在短波範圍內是失效的。
最後，普朗克登場了，他用數學上的內插法湊出了一個公式，也就是普朗克黑體公式。公式誕生之初，普朗克也無法解釋這個公式蘊含的因果關係。但是通過對自己拼湊出來的公式的不斷探索與解釋，最終使得「量子」這個辭彙的得以誕生。

這是物理學上典型的一個忽略因果關係，單純從數學角度出發，拼湊模型的過程。

回到問題上來，「大數據決策」能否改進模型的建立過程呢？

答案是可以的，根據舍恩伯格的「第三個轉變」，計算機可以完全忽略構建函數過程中的因果關係，在短時間內測試大量的數學模型，從而得到最精確的數學模型。具體的案例可以參照舍恩伯格書中提到的google預測流感的案例。

以上，便是「大數據」決策帶來的良性變化以及存在的無法解決的「創新」「主觀偏好」等問題。

希望能有幫助。

Lonely Planet (Lonely Planet).

2014年6月19日

其它相關答案：

博弈論用來解釋和解決現實問題和現象的效果如何？都有哪些實例？

人們學習歷史，可相似的事情卻在不停地發生，以史為鑒，人們做得到嗎？

談大數據，首先要談數據挖掘，我不是演算法工程師，也不是資料庫的開發者和維護者。但是我知道解決任何一個問題，都要有假設、模型、參數設置、計算方法和解釋幾個部分。

數據挖掘 (SSAS)

大數據不是市場調查，不是你設置好了一個完美的邏輯，希望得到一個答案來驗證自己的想法。而是要通過相關性，來衡量決策和收益之間的關係。所以大數據很多時候是反常識的。

我記得BBC拍過一個紀錄片，講使用地震學家評價地震危險性的演算法（本人專業所以比較敏感）來預測城市中犯罪行為的高髮帶，並且在這一地區監控手機和攝像頭，抓到了一批學生毒販。

這個案例能夠成功，首先要有過去數十年的犯罪記錄和地理位置信息，而且這些信息還在不斷補充添加，是實時的。然後有演算法來計算地理位置和犯罪活動的相關性，並將這種相關性通過實時數據變成關於時間的函數，因此得以預測未來。

至於你在評論里說的什麼宇宙大爆炸前幾秒後幾秒，看出來你不僅不了解大數據，甚至沒有經過嚴肅的學科訓練。大數據大數據，首先得有數據，而且大，而且實時，關於宇宙爆炸前幾秒後幾秒，你有幾個數據？演算法不能取代數據挖掘，更不能取代數據獲取。這種問題，大數據解決不了，科學都可能解決不了，但是巫婆神漢，宗教玄學說他們早就解決了。

不過你的考慮也有一定道理，那就是被局限的思維範式。當你在PC用戶的購買數據進行挖掘時，你很難預測準確他們對於平板電腦的需求。因為數據產生者沒有這個認知，數據挖掘者也沒有這樣的前提。

畢竟即使是CS最前沿的人工智慧，機器學習，依然不具有想像力，但是不代表以後沒有。

Vicarious：讓計算機擁有想像力

關於大數據，看過兩篇不錯的通俗報道

徘徊的大數據門前：五個真實的數據挖掘故事

布隆伯格極客小分隊 |第一財經周刊

以上所說的，都是泛泛而談，有點類似 @Kenneth 說的

試圖用哲學的方法解釋科學現象

所以期待他的技術派報告

Talk is cheap, show me the code

我不會code，所以也只能這樣泛泛而談。記住，拋開可操作性，拋開案例，干說大數據的，不是給某家的「故事」背書的寫手，就是在科技領域淺嘗輒止的財經記者。

先佔個坑，有空來補。看你們現在討論大數據，感覺是一群外行人試圖用哲學的方法解釋科學現象，槽點多到我笑抽。

首先糾正一下題主評論中的概念，不存在大爆炸「之前」，因為大爆炸是時間的起點。再糾正一下大數據的概念，大數據不是常規的大量「資料」，如同在圖書館裡查信息那樣；而是類似從一年全球產生的所有文字資料中去尋找價值，有效信息含量極低。可以說大數據里絕大多數（甚至有可能高達99.99%）對於某一次的研究來說都是廢物，而那0.01%的價值也並不像圖書館找書那樣順著索引就找到了，而是需要經過大量研究，非常複雜的數據挖掘才能提取出其中的價值。

至於利用大數據來做決策，個人認為不現實。首先基本上沒有幾家公司能夠擁有稱得上「大數據」的數據源。即使有了數據，有能力從如此海量的數據中挖掘到用於決策的信息也需要異常強大的數據挖掘和分析能力，同樣沒幾家公司可以做到。即使這兩條全都實現了，一個最重要的問題出現了：時間。公司決策是有時間價值的，也就是說我現在決定做一個項目可能可以賺的滿盆滿缽，但是等我拿到了數據分析的結果，可能已經是1年後了，這時候競爭對手早已經瓜分了市場，還談什麼決策。

除了全球數得出名的幾家巨頭企業外，個人表示實在想不出來有哪家公司有實力利用「大數據」來引導公司的決策。

在eHR系統數據建設中，數據源源不斷彙集到資料庫，確保數據能用、可用，且操作者對其善於運用，這才是數據建設的核心。數據是否可用和可信，是用戶關心的兩個層面，也是eHR數據建設的兩個根本。

可用是技術層面問題，是指數據的格式、內容等能否被用戶讀取和使用，方便地進行深入處理和分析。

可信是數據質量問題，是指數據在準確性、完整性、及時性和有效性方面能否滿足應用要求。

憑藉「大數據」理念進行數據建設

憑藉「大數據」理念進行數據建設，不但能確保數據可用和可信，也將在數據使用上獲得意想不到的效果。與一般數據信息相比，大數據除了具有大量、高速、多樣、真實等特徵，更關鍵的，是數據的流通與互動。eHR系統數據建設除了在數據準備階段要恰當選擇數據處理的原則和方法，還要應用好以下五個實施策略，有效維持特性，才能滿足系統運行後的數據分析、數據挖掘需求。

1數據整合

大數據雖然數量龐大，但並不是簡單的數據堆積。系統設計者必須整體考慮企業的eHR建設，使資料庫成為自由共享中心，掌握各應用系統專業數據範圍，明確數據的歸口管理單位，制定相應的數據標準，避免數據多源、重複。

2數據與流程協同

要使eHR系統中的數據成為「活數據」，須將數據與系統各業務流程模塊協同，達到數據的有效流通和互動。流程即是開展業務的實現途徑，也是數據的管控手段，靜態數據與動態數據的平衡互相均藉此實現。

3數據標準化

數據標準化才能顯現處理和統計速度的乘數效應，離開數據標準化，搭建數據統計的分析模型、進行數據挖掘等就成為紙上談兵。

4數據相關性

做數據相關性分析，可把涉及的其他專業數據進行分類，對數據源進行追溯，利用基礎數據的相關性衍生某些數據，減少非專業數據在建設中數據採集、錄入和統計的工作量。

5數據質量控制

數據質量控制一般圍繞適用性、準確性、完整性、及時性、有效性5個質量特性，從數據源、數據錄入、數據上報點著手，建立內部和外部監督，在數據約束、相關性分析、數據邏輯分析的基礎上建立完善的數據校驗程序，並通過各級用戶對數據的準確評估來掌握和校正數據、提供質量。

數據可用、可信只是為ehr系統提供了有價值的數據資源，真正做到讓數據「說話」並不簡單。

首先要準確建立數據分析模型。

eHR系統雖然彙集了海量的人力資源信息，但這些數據通常不能直接應用，而需要利用工具把相關數據提取出來，通過建立數據模型加以計算，最後對結果進行分析和診斷。因此，HR能否將人力資源管理的實際問題抽象化、掌握方向和要素，將直接決定著建立分析模型的成敗以及能否對現實工作進行診斷。

其次獲得數據分析人才的協助。

數據分析是大多數HR的數據短板，因此，為了使eHR系統帶來更好的收效，企業需聘用一批數據分析方面的專業人士，以彌補現有人才的不足。

最後要明晰HR在數據管理中的角色。

相當一部分HR，要麼認為數據管理是IT部門的工作，要麼認為自己並非內行，無法參與到數據在企業內部的共享過程。事實上，HR應該認識到，未來的企業人力資源與信息化的契合水平將日益緊密，HR只有儘快從業務管理轉變為數據分析的引導者和提供者，才能真正成為管理者提供人力資源的戰略決策支持。

答案整理自eHRChina

西班牙跟智利那場求我輸了一萬多