數據思維是一種新的思維方式 --《大數據時代》讀後感
來自專欄 James的黑板報4 人贊了文章
機器學習、在線大數據和超級計算能力三駕馬車能夠大幅度提升整個人類社會的運行效率,是我們要面對的重大社會變革。9月份看完了《大數據時代—生活、工作與思維的大變革》這本書,雖然是舊書,但是我對數據的價值有了更加深入的了解。
在掌握這些數據科學的技術之前,我們最好先有數據思維模型,以此開始構建我們的創新項目,我在這篇閱讀筆記裡面聊一些書裡面有價值的觀點和思維模型,期待對大家有幫助。
1 分析信息方式的三大轉變
人類存儲信息量的增長速度非常之快,從量變導致質變的角度,我們這個時代分析信息會有三大轉變。
1)在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個現象相關的所有數據,而不再依賴隨機採樣。
2)當我們擁有海量數據的時候,絕對的精準不再是我們追求的主要目標。
3)我們不再熱衷於尋找因果關係,而應該尋找相關關係,找到數據之間未被發掘的關聯。
2 數據採集的歷史
數千年來,政府都試圖通過收集信息來管理國民,古代埃及曾進行人口普查,《舊約》和《新約》都有提及。1086年《末日審判書》對英國當時的人口、土地和財產進行全面的記載,但是人口普查是耗資和耗時的工作,國王威廉一世還沒等到《末日審判書》完成就去世了。美國憲法規定每10年進行一次人口普查,其在1880年進行的人口普查,耗時8年才完成數據匯總。
三百多年前,英國裁縫John Graunt提出一個新方法推算出鼠疫時期倫敦的人口數,這種方法後來被稱為統計學,人們可以利用少量有用的樣本信息來獲取人口的整體情況。
隨機採樣取得了巨大的成功,成為現代社會測量領域的主心骨,但是這只是一條捷徑,是在不可收集和分析全部數據的情況下的選擇,它本身存在固有的缺陷。它的成功依賴採樣的絕對隨機性,但是實現採樣的隨機性非常困難。一旦採樣過程中存在任何偏見,分析結果就會相去甚遠。另外,當人們想了解更深層次的細分領域情況的時候,隨機採樣不可取,就像模擬照片列印,一旦聚焦某個點就會變得模糊不清。
但是現在事情起了變化,互聯網海量數據的出現改變的數據採集的舊格局。正如阿里王堅所說,大數據在線便有了更大的社會意義。谷歌流感趨勢預測並不是依賴對隨機樣本的分析,而是分析了整個美國幾十億條互聯網檢索記錄。分析資料庫,而不是對小樣本進行分析,能夠提高微觀層面的準確性,甚至能夠推測出某個特定城市的流感狀況。
所以,我們現在經常會放棄樣本分析這個捷徑,選擇收集全面而完整的數據。而大數據是指不用隨機分析方法這樣的捷徑,而採用所有數據的方法。
3 相關關係
相關關係的核心是量化兩個數據之間的數理關係,相關關係強是指當一個數據值增加的時候,另一個數據值很有可能會隨之增加。通過給我們找到一個現象的良好的關聯物,相關關係可以幫助我們捕捉和預測未來,而建立在相關關係分析法基礎上的預測是大數據的核心。
在亞馬遜老闆Jeff Bezos的傳記裡面寫了「item-to-item」技術誕生的過程,也就是我們現在用到的「購買此商品的顧客也同時購買」這個相關關係功能,從此推薦系統發生了翻天覆地的變化。通過數據推薦產品所增加的銷售遠超過書評家的貢獻,據說亞馬遜銷售額的三分之一都來自於它的個性化推薦系統,同樣,Neflix的四分之三訂單都來自於推薦系統。
相關關係通過識別有用的關聯物來幫亞馬遜做產品推薦,相關關係沒有絕對,只有可能性。也就是說,不是亞馬遜推薦的每本書顧客都想買,但是如果相關關係強,一個相關鏈接成功的概率是很高的。另外一點,我們現在擁有如此多的數據,這麼好的機器計算能力,因而不再需要人工選擇一個關聯物或者一小部分相似數據來逐一分析,複雜的機器(機器學習技術?)能夠為我們辨認出誰是最好的代理。
相比於舊時代的統計學,大數據相關關係分析法更準確、更快。
4 數據中間商
《大數據時代》這本書提到一個「數據中間商」的概念,就是他們會從各種地方收集數據進行統計,然後再提取有用的信息進行利用。數據擁有者可以讓中間商充當這樣的角色,因為有些數據的價值只能通過中間人來挖掘。
總部位於西雅圖的交通數據處理公司Intrix就是一個很好的例子,它彙集了美洲和歐洲近1億輛汽車的實時交通數據,包括來自寶馬、福特、豐田等車,Intrix把這些數據與歷史數據進行對比,並考慮天氣等狀況來預測交通狀況。數據匯總之後,其產生的價值要遠超於它們被單獨利用的價值。
一個獨立的小公司、非營利組織或者行業聯盟作為數據中間商更有可能被接受,更有利於匯聚行業內各方的數據,並從知識產權中獲利最大。而Intrix認為,到最後,每個汽車製造商都會意識到數據共享的好處。
5 專家的消亡與數據科學家的崛起
推薦大家看一部電影《點球成金》,主演是布拉德皮特,講得就是奧克蘭運動家棒球隊如何通過利用統計學和數學建模的方式分析數字,以此來調整團隊的球員選擇和作戰策略,最終獲得20連勝的故事。
傳統的球員選擇是通過專家來選擇的,但是專家做選擇的過程,也只是看感覺,沒有什麼客觀標準。而主角比恩在由於團隊資金非常有限,但是目標是奪冠的情況下,不得不解僱了專家團隊,採用統計學和數學建模的方式分析球員技能數據,進行球員匹配,最後成功逆襲奪得美國聯盟西部賽的冠軍。
人類從依靠自身判斷做決定到依靠數據做決定的轉變,也是大數據做出的最大貢獻之一。行業專家和技術專家的光芒都會因為統計學家和數據科學家的出現而變暗。正如《點球成金》裡面比恩解僱他的球員選擇專家團隊一樣,亞馬遜老闆Jeff Bezos也解僱了他的人工書評團隊。
大數據先鋒通常並不來自於他們原來的領域,他們是數據分析家、統計學家、人工智慧工程師,但是他們把自己所掌握的技能應用於各個領域,甚至能夠超越行業專家。
同樣的谷歌大腦(Google Brain)總負責人Jeff Dean說,谷歌目前對所需人才的定義有三種,一類是那些能真正理解並運用人工智慧工具的技術工程師;其次,是各行各業的專業跨界人才,如精通醫學和技術的技術專家;最重要的是,有創新意識和商業頭腦的人才,能有效地將人工智慧技術更廣泛地應用到各個行業的人才。
推薦閱讀:
※如何高效入門數據科學?
※如何優雅地使用kaggle學習數據科學
※力薦學習數據科學的大本營——網站DataCamp
※【觀點】盤點對比美英與我國數據科學教育戰略、現狀
※比預測未來更重要的,是改變未來 | 數據科學公開課