《大數據時代》讀書筆記（一）：引言與P1大數據時代的思維變革

01-28

《大數據時代》是國外大數據研究的先河之作，作者為奧地利商業分析大師維克托·邁爾·舍恩伯。

維克托·邁爾·舍恩伯格在書中前瞻性地指出，大數據帶來的信息風暴正在變革我們的生活、工作和思維，大數據開啟了一次重大的時代轉型，並用三個部分講述了大數據時代的思維變革、商業變革和管理變革。

書中最重要的思想可以用三句話進行概述：

隨機抽樣>>>全量（總體）數據分析：大數據時代我們可以分析更多的數據，有時候甚至可以處理和某個特別現象相關的所有數據，而不再依賴於隨機採樣大數據時代我們對總體數據進行分析，而不依賴於隨機抽樣
精準度讓位於大規模數據帶來的宏觀洞察：研究數據如此之多，以至於我們不再熱衷於追求精確度（數據規模過大導致精確度可行性降低），適當忽略微觀層面的精確度以獲得宏觀層面更好的洞察能力
尋求因果關係 >>> 相關關係：我們不再熱衷於尋找因果關係，由因果關係的追求轉變為對相關關係的探索，大數據告訴我們「是什麼」而不是「為什麼」

本文為讀書筆記第一部分，內容涉及書中的引言與Part1，引言部分是對全書主要內容的簡述，Part1則是上述三條大數據思想的詳細說明。

讀書筆記第二部分：《大數據時代》讀書筆記（二）：大數據的應用與帶來的風險，以及我們該怎樣看待大數據

引言：一場生活、工作與思維的大變革

大數據，變革公共衛生

09年甲型H1N1，疾控中心數據匯總的滯後性——谷歌基於用戶搜索詞條構建模型，預測流感
以一種前所未有的方式，通過對海量數據進行分析，獲得有巨大價值的產品和服務，或深刻的洞見

大數據，變革商業

機票價格走勢預測系統，並不能說明原因，只能推測會發生什麼（關注相關關係而不是因果關係）

大數據，變革思維

人們對數據的認知：靜止和陳舊 >>> 一種商業資本，一項重要的經濟投入，可以創造新的經濟利益
數據在思維的轉變下可以巧妙地用來激發新產品和新型服務
大數據是人們獲得新的認知、創造新的價值的源泉；大數據還是改變市場、組織機構，以及政府與公民關係的方法
大數據使社會放棄它對因果關係的渴求，而僅需關注相關關係。只需要知道是什麼，而不需要知道為什麼

大數據，開啟重大的時代轉型

大數據必然要經歷技術成熟度曲線（炒作周期），是指新技術、新概念在媒體上曝光度隨時間的變化曲線

科技誕生的促動期 (Technology Trigger)：在此階段，隨著媒體大肆的報道過度，非理性的渲染，產品的知名度無所不在，然而隨著這個科技的缺點、問題、限制出現，失敗的案例大於成功的案例，例如:.com公司 1998~2000年之間的非理性瘋狂飆升期。
過高期望的峰值（Peak of Inflated Expectations）：早期公眾的過分關注演繹出了一系列成功的故事——當然同時也有眾多失敗的例子。對於失敗，有些公司採取了補救措施，而大部分卻無動於衷。
泡沫化的底谷期 (Trough of Disillusionment)：在歷經前面階段所存活的科技經過多方紮實有重點的試驗，而對此科技的適用範圍及限制是以客觀的並實際的了解，成功並能存活的經營模式逐漸成長。
穩步爬升的光明期 (Slope of Enlightenment)：在此階段，有一新科技的誕生，在市面上受到主要媒體與業界高度的注意，例如:1996年的Internet ，Web。
實質生產的高峰期 (Plateau of Productivity)：在此階段，新科技產生的利益與潛力被市場實際接受，實質支援此經營模式的工具、方法論經過數代的演進，進入了非常成熟的階段。

數據爆炸的時代
量變引發質變

類比納米技術
大數據

大數據的科學價值和社會價值體現

對大數據的掌握程度可以轉化成對經濟價值的來源
大數據已經撼動世界的方方面面，從商業科技到醫療、政府、教育、經濟、人文等各個領域

預測，大數據的核心

大數據的核心就是預測
大數據不是讓機器像人一樣思考，而是把數學演算法應用到海量數據上預測事情發生的可能性

垃圾郵件過濾
輸入錯誤識別
預測一個人亂穿馬路的行進軌跡和速度

反饋學習機制：利用自己產生的數據判斷自身演算法和參數選擇的有效性，並實時進行調整，持續改進自身的表現
個性化技術：個性化排序和個性化推薦等，屬於大數據時代的重要技術

Facebook猜測喜好
關聯網站排序

大數據，大挑戰

大數據的精髓在於我們分析信息時的三個轉變

大數據時代我們可以分析更多的數據，有時候甚至可以處理和某個特別現象相關的所有數據，而不再依賴於隨機採樣
研究數據如此之多，以至於我們不再熱衷於追求精確度（數據規模過大導致精確度可行性降低），適當忽略微觀層面的精確度以獲得宏觀層面更好的洞察能力
前兩個轉變促成第三個轉變：我們不再熱衷於尋找因果關係

因果關係的追求 --> 相關關係的探索
大數據告訴我們「是什麼」而不是「為什麼」，讓數據自己發聲，而不必知道現象背後的原因

數據化：我們要從一切事物中汲取信息，將實物數據化

一個人的位置
引擎的振動
橋樑的承重

20世紀，價值已經從實體基建轉變為無形財產，從土地和工廠轉變為品牌和產權。如今，電腦存儲和分析數據的方法取代電腦硬體成為了價值的源泉。
大數據的負面影響

早期政策專家看到了信息化給人們隱私帶來的威脅，並建立了龐大的規則體系來保障個人信息安全。但在大數據時代人們自願分享信息
危險不再是隱私的泄露，而是被預知的可能性，大數據時代需要新的規章制度保護權勢面前的個人權利

Part1 大數據時代的思維變革

大數據與三個相互聯繫相互作用的思維轉變有關

要分析與事物相關的所有數據，而不是依靠分析少量的樣本數據（本章重點）
樂於接受數據的紛繁複雜，而不再追求精確性
我們的思想發生了轉變，從探求難以捉摸的因果關係轉為關注事物的相關關係

01 更多：不是隨機樣本，而是全體數據

技術條件的提高，大大拓展了我們收集數據、處理數據的能力，但我們依然沒有完全意識到自己擁有了能夠收集和處理大規模數據的能力。

小數據時代的隨機採樣，最少的數據獲得最多的信息

人口普查——1086年英國調查當時的人口土地和財產進行全面的記載行程《末日審判書》，然耗資費時
無奈之舉——採樣分析

採樣分析的精確性隨著採樣隨機性的增加而大幅提高，但與樣本數量的增加關係不大（樣本數量到達一定數量，從新樣本得到的信息將遞減，類比經濟學中的邊際效應遞減）
每年採用多次小規模樣本人口普查
推廣：商業領域的質檢
隨機採樣去的了巨大的成功，但它存在固有缺陷：

一旦採樣過程存在任何偏見，分析結果就會相去甚遠
隨機採樣不適合考察子類別的情況
隨機採樣需要實現設計好問題的結果，調查缺乏延展性，數據不能重新分析以獲得計劃之外的目的

全數據模式：樣本 = 總體

全面性+即時性：技術的進步使得我們可以收集全面完整的數據，提高微觀層面分析的準確性以及快速分析反應的能力
大數據不是絕對意義上的「大」，而是相對於隨機分析法來說，採用所有數據的方法（全數據）
社科應用舉例：對小團體或是整個社會，多樣性都有其額外價值

02 更雜：不是精確性，而是混雜性

樂於接受數據的紛繁複雜，而不再追求精確性

允許不精準

數據量的大幅增加及數據採集頻率的增加會造成結果的不準確，與此同時，一些錯誤地數據會混入資料庫
各種各樣的混亂

錯誤率
格式的不一致性-清洗數據

大數據通常用概率說話，而不是一副確鑿無疑的面孔

大數據的簡單演算法比小數據的複雜演算法更有效

大數據的絕對數量優勢壓倒了其帶來的紛雜錯誤

紛雜的數據越多越好

全面的資料庫使我們不需要擔心某個數據點對整套分析的不利影響
我們需要做的是接受這些紛雜的數據並從中受益，而不是以高昂的代價消除所有的不確定性（關注焦點的變化）
大數據不僅讓我們不再期待精確性，也讓我們無法實現精確性

錯誤性不是數據固有的，而是測量、記錄和交流數據的工具的缺陷
錯誤並不是大數據固有的特性，而是亟待解決並可能長期存在的現實問題

新的資料庫設計的誕生

非關係型資料庫的出現——不預設記錄結構，允許繁雜數據的記錄
更多的處理和存儲資源——大大降低的存儲和處理成本
大的資料庫的分散式存儲對資料庫提出更多的要求
Hadoop：與谷歌的MapReduce系統相對應的開源式分布系統的基礎構架

實現超大量數據的處理
內部建立數據副本（應對硬體可能的癱瘓）
假定數據之大導致數據在處理之前不可能整齊排列
假定數據量巨大使其完全無法移動，需要在本地進行數據分析
適用於不要求極端精確的任務，例如顧客分群營銷等

只有5%的數據是結構化的，能夠適用於傳統資料庫，接受不確定性，擁抱剩下95%的非結構化數據（網頁和照片視頻資源等）
大數據更強調數據的完整性和混雜性，幫助我們進一步接觸事實的真相（小數據-可能出現管中窺豹的情況）

03 更好：不是因果關係，而是相關關係

是什麼就夠了，不需要知道為什麼

林登與亞馬遜推薦系統

個性化推薦系統在亞馬遜的使用
知道是什麼可以更直接的作用，而為什麼需要複雜的推導運算

關聯物，預測的關鍵

相關關係的核心：量化兩個數據值之間的數量關係
相關關係通過識別有用的關聯來幫助我們分析一個現象，而不是揭示其內部的運作機制
相關關係沒有絕對，只有可能性，但強相關關係鏈接成功的概率還是很高的
利用某個現象的良好的關聯物，相關關係可以幫助我們捕捉現在和預測未來
如果尋找關聯物

機器計算能力，代替了人工選擇一個關聯物或者一小部分相似數據進行逐一分析
用數據驅動的關於大數據的相關關係分析法，取代了基於假想的易出錯的方法
大數據的相關關係分析法更準確、快速，且不容易受偏見的影響

大數據的核心是建立在相關關係分析法基礎上的預測

社會環境下尋找關聯物
通過找出新種類數據間的相互聯繫來解決日常需要例如用於監測橋樑、機器等的感測器數據用於故障預測

「是什麼」，而不是「為什麼」

小數據時代獲取相關關係和因果關係都耗費巨大（建立假設 >>> 進行實驗，存在受偏見影響的可能，且數據收集困難），當前這些困難迎刃而解
相關關係：線型關係到非線性關係的發展
快速思維模式與慢性思維模式

快速思維模式使人們偏向於用因果聯繫看待周圍的一切，即使這種關係並不存在
直覺得來的因果關係很多時候並沒有加深我們對這個世界的理解，只是給我們一種自己已經理解的錯覺。大數據的相關關係將經常證明直覺的因果聯繫是錯誤的
因果關係的證明要求單一變數實驗，難以在現實中實現

相關關係很有用，它為我們提供新的視角，而且提供視角清洗。而一旦我們把因果關係考慮進來，這些視角就可能被蒙蔽