大數據時代 前景及問題解決 閱讀筆記

大數據時代 前景及問題解決 閱讀筆記

來自專欄數據分析4 人贊了文章

筆記均摘選自《大數據時代》方便快速回顧,僅供參考。學習請購買正版書籍。侵刪。

大數據變革案例

大數據,變革公共衛生

谷歌與美國疾控中心,檢索詞條與流感發生時間、地點的相關性,預測流感爆發。比疾控中心快一兩周。

大數據,變革商業

Farecast,未來機票價格預測

大數據,變革思維

最先經歷信息爆炸的學科,如天文學和基因學,創造出了 「 大數據 」 這個概念。如今,這個概念幾乎應用到了所有人類致力於發展的領域中。

大數據並非一個確切的概念。最初,這個概念是指需要處理的信息量過大,已經超出了一般電腦在處理數據時所能使用的內存量,因此工程師們必須改進處理數據的工具。這導致了新的處理技術的誕生,例如谷歌的 MapReduce 和開源 Hadoop 平台(最初源於雅虎)。這些技術使得人們可以處理的數據量大大增加。更重要的是,這些數據不再需要用傳統的資料庫表格來整齊地排列 —— 一些可以消除僵化的層次結構和一致性的技術也出現了。同時,因為互聯網公司可以收集大量有價值的數據,而且有利用這些數據的強烈的利益驅動力,所以互聯網公司順理成章地成為了最新處理技術的領頭實踐者。它們甚至超過了很多有幾十年經驗的線下公司,成為新技術的領銜使用者。

預測,大數據的核心

大數據時代特點

01 樣本 = 總體

穿孔卡片與美國人口普查

大數據與喬布斯的癌症治療

Xoom 與跨境匯款異常交易報警

巴拉巴西與第一次全社會層面的網路分析

02 混雜性,不是竭力避免,而是標準途徑,非關係型的資料庫設計的誕生

微軟與語料庫數據添加

IBM Candidate 計算機翻譯項目

無所不包的谷歌翻譯系統

英國石油公司與無線感應器

麻省理工與通貨緊縮預測軟體

Hadoop 與 VISA 的 13 分鐘

03 不是因果關係,而是相關關係,「 是什麼 」 ,而不是 「 為什麼 」

沃爾瑪,請把蛋撻與颶風用品擺在一起

FICO,「 我們知道你明天會做什麼 」

美國折扣零售商塔吉特與懷孕預測

UPS 與汽車修理預測

大數據預測早產兒病情

幸福感的非線性關係

二手車質量預測

紐約大型沙井蓋爆炸預測

04 數據化:一切皆可 「 量化 」,文字、方位、溝通變成數據、世間萬物的數據化

日本先進工業技術研究所的坐姿研究與汽車防盜系統

谷歌的數字圖書館

多效地理定位與 UPS 的最佳行車路徑

Foursquare ,讓用戶在最喜愛的地方 「check in」

用手機數據預測疾病傳播和城市繁榮

英國對沖基金公司,用微博數據預測股市投資時機

睡眠活動資料庫與睡眠模式預測

GPS 感應器,判斷環境因素對哮喘病的影響

05 價值: 「 取之不盡,用之不竭 」 的數據創新

IBM ,電動汽車動力與電力供應系統優化預測

Hitwise ,通過流量判斷消費者喜好

亞馬遜,讓數據的價值再大一點

移動運營商與數據再利用

谷歌街景與 GPS 採集

微軟與谷歌的拼寫檢查

谷歌,從大的 「 噪音 」 數據中受益

巴諾與 NOOK 快照

在線教育課程,找到最合適閱讀的論壇帖子

Facebook, 從 66 億到 1040 億

DataMarket 與 InfoChimps ,提供免費與付費數據

數據創新利用

1 :數據的再利用

亞馬遜,掌握用戶的數據:他們在看什麼、買什麼。 「 這些數

據可以幫助亞馬遜提高它的推薦引擎性能。 」 亞馬遜前首席科學家韋思岸( Andreas Weigend )一語道破。 AOL 從來沒有意識到這一點,只看到了銷售這個基本用途所帶來的利益;而聰明的亞馬遜卻知道如何從二次利用中獲利。

谷歌GOOG—411 語音識別服務。谷歌與該領域的領導者 Nuance 公司達成購買許可但 Nuance 公司在合同中沒有規定由誰來保存語音翻譯記錄。於是谷歌自己保存了數據。這些數據在改進技術方面是不可或缺的,谷歌甚至據此從頭創建了一個新的語音識別服務系統。當時 Nuance 公司只考慮到了軟體許可的業務交易,而忽視了數據的處理。當認識到自己犯下的錯誤後。

2 :重組數據

丹麥癌症協會:手機是否增加致癌率

丹麥擁有 1985 年手機推出以來所有手機用戶的資料庫。結合所有癌症患者的信息,結合這兩個數據集後,研究人員開始尋找兩者的關係。

3 :可擴展數據

谷歌街景與 GPS 採集

在收集數據時強調擴展性方面,谷歌毫無疑問是做得最好的公司之一。其備受爭議的街景汽車不僅拍攝了房屋和道路的照片,還同時採集 GPS 數據,檢查地圖的信息,甚至還加入了無線網路名稱(以及通過開放無線網路的內容,儘管這可能是非法的)。一輛谷歌街景汽車每時每刻都能積累大量的離散數據流。這些數據之所以具有可擴展性,是因為谷歌不僅將其用於基本用途,而且進行了大量的二次使用。例如, GPS 數據不僅優化了其地圖服務,而且對谷歌自動駕駛汽車的運作功不可沒。

4 :數據的折舊值

隨著時間的推移,大多數數據都會失去一部分基本用途。

在這種情況下,繼續依賴於舊的數據不僅不能增加價值,實際上還會破壞新數據的價值。比如十年前你在亞馬遜買了一本書,而現在你可能已經對它完全不感興趣。如果亞馬遜繼續用這個數據來向你推薦其他書籍,你就不太可能購買帶有這類標題的書籍,甚至會擔心該網站之後的推薦是否合理。這些推薦的依據既有舊的過時的信息又有近期仍然有價值的數據,而舊數據的存在破壞了新數據的價值。

於是,亞馬遜決定只使用仍有生產價值的數據,這就需要不斷地更新資料庫並淘汰無用信息。這時面臨的挑戰就是如何得知哪些數據不再有價值。僅僅依據時間來判斷顯然不夠, 因此,亞馬遜等公司建立了複雜的模型來幫助自己分離有用和無用的數據。例如,如果客戶瀏覽或購買了一本基於以往購買記錄而推薦的書,電子商務公司就認為這項舊的購買記錄仍然代表著客戶的喜好。這樣,他們就能夠評價舊數據的有用性,並使模型的 「 折舊率 」 更具體。

並非所有的數據都會貶值。

有些公司提倡儘可能長時間地保存數據,即使監管部門或公眾要求它們短時間內刪除或隱匿這些信息。這就解釋了為什麼一直以來,谷歌都拒絕將互聯網協議地址從舊的搜索查詢中完全刪除(它只是在 18 個月後刪除了最後四位數以隱匿搜索查詢)。谷歌希望得到每年的同比數,如假日購物搜索等。此外,通過了解搜索者的位置,可以幫助改善搜索結果的相關性。例如,很多紐約人都會搜索 「 火雞 」 ,但經常會搜索到與 「 火雞 」 無關的關於 「 土耳其 」 的網頁(英文中 「 火雞 」 與 「 土耳其 」 同為 turkey )。通過演算法可以將他們想要查看的頁面放在排名靠前的位置,來方便其他紐約人查找。

即使數據用於基本用途的價值會減少,但潛在價值卻依然強大。

5 :數據廢氣

微軟與谷歌的拼寫檢查

在過去的 20 多年中,微軟為其 Word 軟體開發出了一個強大的拼寫檢查程序,通過與頻繁更

新的字典正確拼寫相比較來對用戶鍵入的字元流進行判斷。字典囊括了所有已知辭彙,系統將

拼寫相似但字典中沒有的辭彙判斷為拼寫錯誤,並對其進行糾正。由於需要不斷編譯和更新字

典,微軟 Word 的拼寫檢查僅適用於最常用的語言,且每年需要花費數百萬美元的創建和維護費用。

現在再來看看谷歌是怎麼做的吧。可以說,谷歌擁有世界上最完整的拼寫檢查器,基本上

涵蓋了世界上的每一種語言。這個系統一直在不斷地完善和增加新的辭彙,這是人們每天使用

搜索引擎的附加結果。你輸錯了 iPad 嗎?不要緊,它在那兒呢; Obamacare 是什麼?哦,明白了。

而且,谷歌幾乎是 「 免費 」 地獲得了這種拼寫檢查,它依據的是其每天處理的 30 億查詢中輸入搜索框中的錯誤拼寫。一個巧妙的反饋循環可以將用戶實際想輸入的內容告知系統。當搜索結果頁面的頂部顯示 「 你要找的是不是:流行病學 」 時,用戶可以通過點擊正確的術語明確地 「 告訴 」 谷歌自己需要重新查詢的內容。或者,直接在用戶訪問的頁面上顯示正確拼寫的結果,因為它很可能與正確的拼寫高度相關。(這實際上比看上去更有意義,因為隨著谷歌拼寫檢查系統的不斷完善,人們即使沒有完全精確地輸入查詢內容也能夠獲得正確的查詢結果。)

谷歌的拼寫檢查系統顯示,那些 「 不合標準 」 、 「 不正確 」 或 「 有缺陷 」 的數據也是非常有用的。

不僅利用錯別字開發了世界上最好、最新式的拼寫檢查器來提高搜索質量,而且將其應用於許多其他服務中,如搜索的 「 自動完成 」 功能、 Gmail 、谷歌文檔甚至翻譯系統。

一個用來描述人們在網上留下的數字軌跡的藝術辭彙出現了,這就是 「 數據廢氣 」 。 它是用戶在線交互的副產品,包括瀏覽了哪些頁面、停留了多久、滑鼠游標停留的位置、輸入了

什麼信息等。

Udacity 、 Coursera 和 EDX 等在線教育課程通過跟蹤學生的 Web 交互來尋找最佳的教學方法。

數據廢氣可以成為公司的巨大競爭優勢,也可能成為對手的強大進入壁壘。

試想,如果一家新上市的公司設計了一個比當今行業領先者(如亞馬遜、谷歌或 Facebook 等)更優秀的電子商務網站、社交網站或搜索引擎,它也難以同對手競爭,這不僅是因為其經濟規模、網路效應或品牌價值不夠好,而是因為這些公司收集了來自客戶交互的數據廢氣並納入到他們的服務中。一個新的在線教育網站有能力與一個已經具備龐大資料庫並且由此知道什麼最好的對手相抗衡嗎?

6 :開放數據

國家收集數據時代表的是其公民,因此它也理應提供一個讓公民查看的入口,但少數可能會危害到國家安全或他人隱私權的情況除外。

奧巴馬的指令促成了 data.gov 網站的建立,這是美國聯邦政府的公開信息資料庫。網站從 2009 年的47 個數據集迅速發展起來,到 2012 年 7 月三周年時,數據集已達 45 萬個左右,涵蓋了 172 個機構。

即使是在嚴謹的英國 [3] ,現在也出現了實質性的轉變。英國政府已經頒布相關規定鼓勵信息

公開,並支持創建由萬維網的發明者蒂姆 · 伯納斯( Tim Berners-Lee )參與指導的開放式數據中心,這一舉措促進了開放數據的新用途並將數據從國家手中解放出來。

歐盟宣布開放數據的舉措很快也會遍及整個歐洲。其他國家,如澳大利亞、巴西、智利等

也相繼出台並實施了開放數據策略。同時,世界各地越來越多的城市和地區也已經加入開放數

據的熱潮,一些國際組織也是如此,世界銀行就公開了數百個之前被限制的關於經濟和社會指

標方面的數據集。

同時,各種 Web 開發人員和富有遠見的思想家組成了數據團隊來最大化開放數據價值,如

美國的陽光基金會和英國的開放知識基金會。

FlyOnTime 的航班時間預測

開放數據早期的一個例子,來自美國一個叫 FlyOnTime.us 的網站。人們可以交互地(從許多

其他相互關係中)判斷惡劣天氣使某一特定機場的航班延遲的可能性有多大。該網站結合了航

班信息和互聯網免費提供的官方天氣預報。

7 :給數據估值

無論是向公眾開放還是將其鎖在公司的保險庫中,數據的價值都難以衡量。

Facebook 開盤當天,其正規金融資產與其未記錄的無形資產之間相差了近 1000 億美元,差距幾乎是 20 倍!太可笑了。

但是,隨著企業找到在資產負債表上記錄數據資產價值的方法,這樣的差距有一天也必將消

除。

數據價值的關鍵是看似無限的再利用,即它的潛在價值。收集信息固然至關重要,但還遠

遠不夠,因為大部分的數據價值在於它的使用,而不是佔有本身。

大數據價值鏈

數據、技術、思維

ITA software 與數據授權

VISA & MasterCard 與商戶推薦

微軟研究中心與再入院率分析

埃森哲與無線感測監測系統

FlightCaster 的大數據思維

谷歌與亞馬遜,三者兼備

數據中間商,交通數據處理公司 Inrix

The-Numbers.com 與電影票房預測

蘋果,挖出 「 潛伏 」 的數據價值

大數據掌控公司

ITA Software 與數據授權

四大機票預訂系統之一的 ITA Software就為 Farecast 提供預測機票價格所需要的數據,而它

自身並不進行這種數據分析。為什麼呢?因為商業定位不一樣,畢竟出售機票已經很不容易

了,所以 ITA 並不考慮這些數據的額外利用。因此,兩家公司的核心競爭力也會不同。當然,還有就是 ITA 並沒有這種創新想法,如果它能像 Farecast 一樣利用數據,那麼就需要向奧倫 · 埃齊奧尼先生購買專利使用權了。

當然,它在大數據價值鏈上所處的位置也決定了它不會這樣去使用數據。 「ITA 會盡量避免

用任何數據來暴露航空公司的利潤問題。 」ITA 的創始人之一也是前 CTO 卡爾 · 德馬肯( Carl de Marcken )如是說。他還說, 「ITA 能夠得到這些數據而且必須擁有這些數據,因為它們是 ITA 在提供服務時必須具備的。 」 但是, ITA 有意與這些數據保持一定的距離,所以自己不使用而是授權別人使用。結果不難預見, ITA 只從 Farecast 那裡分得了小小的一杯羹。 Farecast 得到了數據大部分的間接價值,它把其中一部分價值以更便宜的機票的形式轉移給了它的用戶,而把這種價值帶來的利潤分給了它的股東以及員工。 Farecast 通過廣告、傭金,當然最後通過出售公司本身獲取利潤。

有的公司精明地把自己放在了這個信息鏈的核心,這樣它們就能擴大規模、挖掘數據的價

值。信用卡行業的情況就符合這一點。多年來,防範信用詐騙的高成本使得許多中小銀行都不

願意發行自己的信用卡;而是由大型金融機構發行,因為只有它們才能大規模地投入人力物力

發展防範技術。美國第一資本銀行和美國銀行這樣的大型金融機構就承擔了這個工作。但是現

在小銀行後悔了,因為沒有自己發行的信用卡,它們就無從得知客戶的消費模式,從而不能為

客戶提供定製化服務。

如果一個人在下午四點左右給汽車加油的話,他很可能在接下來的一個小時內要去購物或者去餐館吃飯,而這一個小時的花費大概在 35~50 美元之間。商家可能正需要這樣的信息,因為這樣它們就能在這個時間段的加油小票背面附上加油站附近商店的優惠券。

處於這個數據鏈的中心, MasterCard 佔據了收集數據和挖掘數據價值的黃金位置。我們可以

想像,未來的信用卡公司不會再對交易收取傭金,而是免費提供支付服務。作為回報,它們會

獲得更多的數據,而對這些數據進行複雜的分析之後,它們又可以賣掉分析結果以取得利潤。

大數據技術公司

2005 年,在埃森哲與密蘇里州聖路易斯市共同合作的一個實驗項目中,它給 20 輛公交車安

裝了無線感測器來監測車輛引擎的工作情況。這些數據被用來預測公交車什麼時候會拋錨以及

維修的最佳時機。研究促使車輛更換零件的周期從 30 萬或者 40 萬公里變成了 50 萬公里,僅這一項研究結果就幫助該城市節省了 60 萬美元。

大數據思維公司和個人

FlightCaster 的大數據思維

布拉德福德 · 克羅斯( Bradford Cross )用擬人手法解釋了什麼是有大數據思維。 FlightCaster.com 。和 FlyOnTime.us 類似,這個網站致力於預測航班是否會晚點。它主要基於分析過去十年里每個航班的情況,然後將其與過去和現實的天氣情況進行匹配。

谷歌與亞馬遜,三者兼備

谷歌,

收集搜索時拼寫錯誤的數據,它也有利用這些數據創建一個世界上最好的拼寫檢查程序的好點

子,同時它自身也具備挖掘數據價值的技術。谷歌在大數據價值鏈中同時充當的這三個不同的

角色,與谷歌其他項目整合後為谷歌帶來了巨大的利潤。除此之外,谷歌還通過應用程序介面

( APIs )把它掌握的部分數據授權別人使用,這樣數據就能重複使用還可以產生附加價值。谷歌地圖就是這樣,它免費給互聯網上的任何人提供服務(儘管訪問量很大的網站是需要付費

的)。

亞馬遜

剛開始的時候,關於它備受讚譽的推薦系統,亞馬遜只有一個初步的想法。它在其 1997 年的股票市場簡介中首先描述了 「 協同過濾 」 ,這發生在它找到實施這個想法的方法和配備足夠的數據資源之前。

雖然谷歌和亞馬遜都是三者兼具,但是它們的商業策略並不相同。谷歌在剛開始收集數據

的時候,就已經帶有多次使用數據的想法。比方說,它的街景採集車收集全球定位系統數據不

光是為了創建谷歌地圖,也是為了製成全自動汽車。相對地,亞馬遜更關注的是數據的基本用

途而且也只把數據的二級用途作為額外收益。比方說,它的推薦系統把用戶瀏覽過的網頁數據

作為線索,但是它並沒有利用它預測經濟狀況和流感爆發。

亞馬遜的 Kindle 電子書閱讀器記錄了一些讀者反覆標註和強調過的內容,但是亞馬遜並沒有

把這些數據信息賣給作者或是出版社。書商肯定很樂意知道哪些段落是受讀者喜歡的,因為這

樣他們就能提高銷量;作者應該也想知道書籍的哪些地方不受讀者歡迎,這樣他們就能根據讀

者的喜好提高作品質量;出版社則可以通過這些數據知道哪些主題的書籍更有可能成為暢銷

書。但是,亞馬遜把這些數據都雪藏了。

全新的數據中間商

數據中間商,交通數據處理公司 Inrix

總部位於西雅圖的交通數據處理公司 Inrix 就是一個很好的例子。它彙集了來自美洲和歐洲

近 1 億輛汽車的實時交通數據。這些數據來自寶馬、福特、豐田等私家車,還有一些商用車,比如計程車和貨車。私家車主的行動電話也是數據的來源。這也解釋了為什麼它要建立一個免費的智能手機應用程序,因為一方面它可以為用戶提供免費的交通信息,另一方面它自己就得到了同步的數據。 Inrix 通過把這些數據與歷史交通數據進行比對,再考慮進天氣和其他諸如當地時事等信息來預測交通狀況。數據軟體分析出的結果會被同步到汽車衛星導航系統中,政府部門和商用車隊都會使用它。

大數據,決定企業競爭力

大數據成為許多公司競爭力的來源,從而使整個行業結構都改變了。當然,每個公司的情

況各有不同。大公司和小公司最有可能成為贏家,而大部分中等規模的公司則可能無法在這次

行業調整中嘗到甜頭。

雖然像亞馬遜和谷歌一樣的行業領頭羊會一直保持領先地位,但是和工業時代不一樣,它

們的企業競爭力並不是體現在龐大的生產規模上。已經擁有的技術配備規模固然很重要,但那

也不是它們的核心競爭力,畢竟如今已經能夠快速而廉價地進行大量的數據存儲和處理了。公

司可以根據實際需要調整它們的計算機技術力量,這樣就把固定投入變成了可變投入,同時也

削弱了大公司的技術配備規模的優勢。

大數據管理變革、問題與解決

風險:讓數據主宰一切的隱憂

無處不在的 「 第三隻眼 」

我們的隱私被二次利用了

預測與懲罰,不是因為 「 所做 」 ,而是因為 「 將做 」

數據獨裁

掙脫大數據的困境

掌控:責任與自由並舉的信息管理

管理變革 1 :個人隱私保護,從個人許可到讓數據使用者承擔責任

管理變革 2 :個人動因 VS 預測分析

管理變革 3 :擊碎黑盒子,大數據演算法師的崛起

管理變革 4 :反數據壟斷大亨


推薦閱讀:

從數據分析結果到決策
大數據的關鍵技術
業界 | 數據科學大Battle,你站Python還是R
機器學習/數據挖掘面試總結
數據分析師值得交的5類朋友

TAG:大數據 | 數據分析 | 數據挖掘 |