大數據時代的科普讀物 (評論: 大數據時代)
5 「大數據提供的不是最終答案,只是參考答案,為我們提供暫時的幫助,以便等待更好的方法和答案出現。這也提醒我們在使用這個工具的時候,應當懷有謙恭之心,銘記人性之本。」--《大數據時代》結語 這句話一語道破大數據的作用,如作者所說,大數據提供的僅僅是參考答案。這本書中引用了大量的案例來表達大數據在各個領域所做出的貢獻,並且很好地展示了大數據是如何改變我們的思維的,以及大數據的形成和歷史先例,在書的後半段又提出了大數據的隱憂以及如何在發揮大數據的作用的同時保護個人隱私,安全地使用大數據,提到的把個人隱私的責任轉移到使用大數據的人的身上,是一個不錯的建議,也需要法律來完善對於大數據時代個人隱私的保護。 谷歌使用大數據預測了2009年甲流發生之前,利用美國人5000萬條最頻繁的搜索詞條和沒過疾控中心在2003年至2008年間季節性流感傳播時期的數據進行比較,預測流感的發生,不僅是全美範圍的傳播,而且可以具體到特定的地區和洲。太震撼了!數據的利用價值再一次被體現。 這本書概述了大數據是如何影響我們的生活的,從亞馬遜,谷歌,微軟以及其他國外著名的案例中很好地展示了其作用,還向我們展示了像Twitter這樣擁有大數據的公司卻僅僅是將數據授權給其他的兩個公司使用,還向我們展示了在大數據時代,大數據的產業鏈以及政府使用大數據的案例。 「一個稱為MasterCard Advisors的部門收集和分析了來自210個國家的15億信用卡用戶的650億條交易記錄,用來預測商業發展和客戶的消費趨勢。然後,它把這些分析結果賣給其他公司。它發現,如果一個人在下午四點左右給汽車加油的話,他很可能在接下來的一個小時內要去購物或者去餐館吃飯,而這一個小時的花費大概在35~50美元之間。商家可能正需要這樣的信息,因為這樣它們就能在這個時間段的加油小票背面附上加油站附近商店的優惠券。」 大數據擁有小數據無法得到的某些結果,大數據也因為其繁雜而允許某些數據的不精確性,也正是因為大而包容了這樣的錯誤,因為大數據得到的是相關關係,而不是因果關係。 「zynga的首席分析師肯·魯丁說道,「我們打著遊戲公司的幌子,實際上在做的是分析公司的事。我們的運作都是以數據為基礎的」,一家遊戲公司,從大數據獲得用戶的購買道具的習慣而做出多個版本的遊戲,甚至是100多個版本的遊戲。 」隨機採樣取得了巨大的成功,成為現代社會、現代測量領域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數據的情況下的選擇,它本身存在許多固有的缺陷。[4]它的成功依賴於採樣的絕對隨機性,但是實現採樣的隨機性非常困難。一旦採樣過程中存在任何偏見,分析結果就會相去甚遠。「還有就是大數據的樣本發生了量的變化,從之前的隨機抽樣變成了」樣本=總體「即所有的樣本都包含在分析的數據中,這是一個改變,因為大數據獲得方式變得容易以及花費變得低廉。 」我們可以用Lytro相機來打一個恰當的比方。Lytro相機是具有革新性的,因為它把大數據運用到了基本的攝影中。與傳統相機只可以記錄一束光不同,Lytro相機可以記錄整個光場里所有的光,達到1100萬束之多。具體生成什麼樣的照片則可以在拍攝之後再根據需要決定。用戶沒必要在一開始就聚焦,因為該相機可以捕捉到所有的數據,所以之後可以選擇聚焦圖像中的任一點。整個光場的光束都被記錄了,也就是收集了所有的數據,「樣本=總體」。因此,與普通照片相比,這些照片就更具「可循環利用性」。如果使用普通相機,攝影師就必須在拍照之前決定好聚焦點。「 」信用卡公司VISA使用Hadoop,能夠將處理兩年內730億單交易所需的時間,從一個月縮減至僅僅13分鐘。這樣大規模處理時間上的縮減足以變革商業了。也許Hadoop不適合正規記賬,但是當可以允許少量錯誤的時候它就非常實用。「雖然大數據有部分的數據不準確,但是當允許少量錯誤的時候,就變得非常實用。 書中還提到了將現實生活數字化,典型的案例就是在駕駛座位下加上一個感測器,從而得到一些值,將這些值量化為1-256之間的數字,來區分坐在駕駛位置的人是否為車主,如果不是就需要輸入密碼才能啟動汽車。數字化--》數據化,作者也說明了這兩者的區別。 太多了,這本書太經典,確實大數據改變了我們的思維方式,給了我們很多不同的角度去思考問題,讓我們不再糾結於為什麼,而是」是什麼「,很多時候,我們並不需要」為什麼「,不是嗎?雖然大數據能預測很多事情,但是大數據不能作為我們判斷的唯一依據,否則就像是侮辱了人類的獨立判斷思維一樣,也讓我們失去了選擇性。大數據時代來到,換一種思維思考周邊的生活。
推薦閱讀:
※三組數據告訴你,一個沉睡了近5年的行業正在復甦……
※治療癌症的有效解藥--基因數據
※看了婚戀大數據,發現了一個驚人規律
※今日數據行業日報(2016.09.06)
※2017上數據分析能力訓練計劃