標籤:

【筆記 1】信號與雜訊:大數據時代預測的科學與藝術

信號與雜訊:大數據時代預測的科學與藝術

Nate Silver[美]納特?西爾弗

讀書筆記

預測是什麼

預測是本書的中心問題,同時也是信息過載的一個解決方案。

預測在生活中必不可少,每次我們選擇工作方法,決定是否要投資,都是對未來事情的預測。預測是人們的共同事業,而不僅僅是一些從業者或相關專家的職責。預測永遠無法完全準確,因為帶有主觀色彩,同時預測的目的,是追尋客觀存在的真理,所以預測是主觀世界與客觀世界的連接方式。

大數據時代

1440年,約翰內斯發明印刷機之後,書籍的成本迅速下降,在印刷機發明的一個世紀內,書籍的生產規模呈指數型增長,數量增長了近30倍,人類知識隨即進入快速積累期。一切的信息都有了更快的傳播渠道,到了現在,出現了大數據這個詞(也是在各種論壇講座上出現頻率較高的一個辭彙),肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的數據集合。

當信息增長速度過快,若我們的處理能力不足,帶來的問題也比較多。20世紀七八十年代的計算機熱非但沒能推動經濟和科學的發展,反而造成了兩個領域生產力水平的短暫下降,經濟學家講這種現象稱為「生產力悖論」。保羅.克魯格曼說,「因為大量的理論堆積如山,驗證數據少的可憐。」 人們利用計算機製作粗略的模型,大膽的預測,但在精度和準確度上都差強人意。

另一個方面,人們會按照自己的意思解釋一切實務的原因,不論這些事物的真實情況是否如此。所以人們很難從干擾的雜訊中分辨出有用的信號,數據展示的都會是我們想要的結果,而且我們也通常會因為這些結果而輕易地皆大歡喜。

貝葉斯定理

本書主要介紹了貝葉斯定理,即"條件概率"(Conditional probability),就是指在事件A發生的情況下,事件B發生的概率,用P(B|A)來表示。

公式為 P(B|A)=P(A∩B)/P(A);

P(A∩B)=P(B|A)*P(A);

同理有 P(A∩B)=P(A|B)*P(B);

由上面兩式可得

P(B|A)*P(A)=P(A|B)*P(B);

變形 P(A|B)=P(B|A)*P(A)/P(B)

貝葉斯推斷與其他統計學推斷方法截然不同。它建立在主觀判斷的基礎上,也就是說,你可以不需要客觀證據,先估計一個值,然後根據實際結果不斷修正。

我們把P(A)稱為"先驗概率"(Prior probability),即在B事件發生之前,我們對A事件概率的一個判斷。P(A|B)稱為"後驗概率"(Posterior probability),即在B事件發生之後,我們對A事件概率的重新評估。P(B|A)/P(B)稱為"可能性函數"(Likelyhood),這是一個調整因子,使得預估概率更接近真實概率。所以,條件概率可以理解成下面的式子:

後驗概率 = 先驗概率 x 調整因子

這就是貝葉斯定理的含義。我們先預估一個"先驗概率",然後加入實驗結果,看這個實驗到底是增強還是削弱了"先驗概率",由此得到更接近事實的"後驗概率"。

這一理論表明,我們必須從不同角度去思考我們的想法,以不同的方式檢驗我們的想法,並且坦然面對各種可能性和不確定性。貝葉斯定理不能接受的是,你假裝自己沒有任何初始觀點和偏見,以正義公平的名義給科學預測帶來災難。

章節安排

第一章至第三章討論了近期出現的金融危機大背景下的失敗的預測,預測中有的很準確,有的則很離譜。第四章至第七章重點講述動態系統:地球大氣層的動態會帶來天氣的變化,構造板塊的運動會引發地震,複雜的人類活動會影響美國經濟,還有傳染病的傳播、擴散。最優秀的科學家正在研究這一系列的因果關係,然而各類動態系統使得預測變得更加困難,這些領域的預測活動總是不盡如人意。第八章至第十章主要探討解決方案。體育和遊戲都遵守規則,這一點是檢驗預測技巧的實驗所必需的。這幾章幫助我們更好地理解什麼是不可測性和不確定性,讓我們深刻理解如何把信息轉變為知識。然而,貝葉斯定理也可以被用來解決更多現存的問題。第十一章至第十三章講到了三 個問題:金融市場泡沫、全球變暖和恐怖主義。這3 個問題對那些預言家和美國社會而言,都很棘手,但如果接受挑戰,我們就能使我們的國家、我們的經濟和我們的星球更加安全。

不斷犯錯,不斷嘗試,這或許是貝葉斯定理應用起來最容易的一個原則了:進行大量的預測,這是唯一能夠讓自己取得進步的方式。


推薦閱讀:

堅持閱讀寫作一年的得與失
當我們在讀書,我們在讀什麼?
新生大學:乾貨 | 速度成為速讀達人
最近的挖坑計劃

TAG:閱讀 | 預測 |