大數據應用除了在體育項目中,還有哪些切身感受得到的應用案例?

根據揭秘德國隊奪冠背後的「第十二人」的內容,德國足協與SAP公司合作,定製名為「Match In-sights」的足球解決方案,用以迅速收集、處理分析球員和球隊的技術數據,基於「數字和事實」優化球隊配置,提升球隊作戰能力,並通過分析對手技術數據,找到在世界盃比賽中的「制勝」方式。

這是大數據研究和應用在足球領域取得的實質性成功。但目前來說,這僅僅是世界盃上的成功,是特例。除世界盃之外,在聯賽當中,這樣的大數據搜集、研究、分析,是不是也可以獲得相似的成功?

放到其他體育項目,比如NBA,能否有類似的大數據研發項目?

拋開體育這一塊(世界盃這個成功案例搞得大數據研發好像就是為體育領域定製的),其他行業有沒有可能取得這樣的突破?有沒有一些實質性的研究結果和案例?


蟹妖。

「大數據」(Big data),實際上意譯作「高頻複雜數據」更貼切一些,也更便於非從業者直觀了解這個詞的含義。(火力表是指什麼? 就像firing
table指的不是火力程度的計數而是發射角度的計數一樣,火力表的翻譯平鋪直敘但是並不達意思。)

由於「大數據」的大並非指單純的數據量龐大,即便是1DB大的資料庫,如果僅僅是一張簡單的二維表,裡面填滿唯一主鍵構成的簡單數據,也沒什麼難以處理的,只要硬體設備能跟上,基本上中學生學過C也就足以處理這份數據了。並不需要整個社會這麼大張旗鼓的研究和鼓吹。

IBM定義「大數據」有4個V的標準(量級Volume,多樣性Variety,價值Value,速度Velocity),這點毋庸置疑(當然,還有所謂的5V或新3V。強調Veracity),但是很多書籍上定義的量級Volume起始計量單位是PB(1000TB)起,那麼現在絕大部分自稱的「大數據應用」是不足以稱之為大數據的。要知道,整個中國去年一年的數據產生量也僅僅是0.8ZB(800PB)。

至少提問者提到的Match
In-sights軟體產生的數據,是不夠這個量級的。

現在更多研究的有意義的「大」數據,更多的是針對不同獨立的數據集(data set)進行合併分析,進而形成關聯性和額外信息,用於現實,這是「大數據」的意義。糾結於定義大小之類的,並沒有什麼幫助。

由於新的處理方法,普遍無法使用單純的人工和原始的編程方式來解決,更多的需要是對不同類別的數據進行匯總進行處理,包括統計分析、建模、模擬抽樣、乃至預測。SAS是代表作。數據處理的這種方式,其次才是大數據應用和採集的意義之所在。雖然人家謙虛的自稱sequence retrieval。

在這方面,美國的華萊士…哦不是,美國的科研機構比我們不知道高到哪裡去了。

所有具體研究「大數據應用」的專題,鮮少有自稱「Big data」,或將其用作自己研究內容的關鍵詞的。也因此,名義上的大數據科學或大數據工程,現在連紙上談兵的資本都還不足。本身沒什麼理論支持,更談不到一門學科。與傳統的數據統計、數據分析之類的區分界線也很淡薄,更多的是具體案例的應用和應對。

現在最愛鼓吹大數據的,往往都是不從事具體工作的新聞工作者們。

我見過的所有談大數據的論文,也都是泛泛而談,性質和科學研究沒什麼關係,主要是報道和命名性質的(這種論文是存在的)。真正涉及大數據的論文,則普遍在認真討論方法而非數據形態。最多用到PB級別數據的工程論述,大多是地理類數據。這類數據一年就有數十PB產生。「智慧城市」的數據一個季度就是大約有200PB,每個高清攝像頭一個月產生1.8TB的數據,每天北京市的視頻採集數據量在3PB,一個中等城市每年視頻監控產生的數據在300PB左右,國家電網年均產生數據510TB以上,而其他像搜索、地圖、社交、影視娛樂類等互聯網公司也擁有PB量級的數據儲備(以上數據來自《大數據史記2013》)——但這不說明就是大數據。擁有和處理是兩碼事。或者說,前者應該叫海量數據,經過處理的海量數據才叫大數據。

(所以通常自稱大數據工程師或工作是大數據相關的,一般和騙子沒什麼區別,很難具體到某一方面的大數據業務,是屠龍之技。編造職位和過往履歷時,要麼說自己是大數據分析工程師,要麼說自己是數據工程師,也能好很多。)

提問者是從世界盃談起的,那麼先說不除了體育方面,因為提問者的距離沒有任何內容——常見的體育運動方面「大數據」應用分為兩部分,一部分是分析,一部分是預測。但是這兩者說是數據工作也可以,沒必要非說是「大數據」。量級也往往不夠PB。

體育類的數據分析應用,通常是由科研或學術機構發起的。

這個行業最著名的會議叫做MIT
Sloan Sports Analytics Conference(MIT Sloan Sports Analytics Conference,這個「斯隆」和偉大的爵士傑里·斯隆毫無關係)。

主要參與人員由兩類人組成:

職業體育從業者,數據分析科學家。

拓撲數據分析是最常見的分析方法。還有其他很多,包含的大量的人工智慧、視覺模擬、人體運動學的科學在內。舉個例子:

Extracting insights from the shape of complex data using topology : Scientific Reports : Nature Publishing Group

圖示就是一種將現實映射為模型化的拓撲分類方法,建模形成簡單數據集的集合後進行下一步分析。這種方式是從醫學來的,而非運動學首創。但是在體育運動學的分析計算時,大量應用了該方法。

更簡單的例子則是這樣的:

離籃板越遠,前場籃板越不好搶——這是我們普通人的觀感。

每距離籃板多一英尺,拿下前場籃板的幾率就會降低1%,但距離超過三分線時,幾率重新變大。此外,90%投丟的球都可以在距離籃板11英尺的範圍內拿下——這是科學家根據數據分析得出的結論。(http://www.sloansportsconference.com/wp-content/uploads/2012/02/108-sloan-sports-2012-maheswaran-chang_updated.pdf)

如果你經常關注斯隆體育大會的NBA相關研究會經常看到這二位仁兄——Rajiv Maheswaran和Yu-Han Chang,他們有大量相關研究,甚至對NBA的鏡頭擺放和有效鏡頭也提出了自己的看法(http://www.sloansportsconference.com/wp-content/uploads/2014/02/2014-SSAC-Quantifying-Shot-Quality-in-the-NBA.pdf),並且真的改變了大量數據軟體分析公司的鏡頭使用方式。去年這倆哥們拉上一個叫做Jeff
Su的夥計組件了運動數據分析公司Second Spectrum,最常見的業務就是將運動追蹤鏡頭捕捉的數據收集起來,然後讓機器學習並分析,給出分析結果和結論。

今年的斯隆大會,他們又做了籃板統計的量化分析的三種方法(《The Three Dimensions of Rebounding》,鏈接:http://www.sloansportsconference.com/wp-content/uploads/2014/02/2014_SSAC_The-Three-Dimensions-Of-Rebounding.pdf),拿了大會的最佳論文獎。

往往這類工作用於提供給非專業人士的複雜數據還需要一項工作:可視化。

這個工作由軟體公司來代為完成。

還有一種分析,則是統計數據的量化評估。與前一種給出如何得出數據的分析不同,這種分析是利用已有的統計數據做結論。

這工作其實和普通公司的量化評估沒有兩樣,都是通過統計數據得出的結論。關於這類工作, @張佳瑋 張公子曾經做過評議(張佳瑋:籃球數據不會說謊,只要它足夠完備),個人認為說的很對。

如果實在是對這東西無感,直接看帥哥電影《點球成金》(Moneyball),奧克蘭運動家隊經理Billy Beane通過小球會取得成功的方法就是放棄普通球探方式,直接將數據化用到球隊交易和選秀上,獲得了創MLB歷史戰績的連勝紀錄。雖然有不少美化和過簡單的鏡頭式語言表達,但是數據分析在21世紀開始正式成為北美職業體育的一項重要工作。而非單純的賽後統計。

最早最成熟的數據量化和這種可視化分析,都出現在美式橄欖球場上,早期的NBA統計,其實只有得分籃板助攻等很少的幾樣,所以張伯倫也沒有完善的蓋帽統計。

現在球迷們也大都只關注老五樣(得分、籃板、助攻、蓋帽、搶斷),然後還有出手數、命中率、出場時間之類的數據,能扯扯這些的,大概就算看球略入門了。

然而根據這些統計數據進行的諸如PER、Efficiency、FantasyRating、+/-、TS%等等數據,則是從單純的賽後數據列表上看不出來的,而是根據一系列制衡指標計算出來的。例如真實命中率(TS%)就是根據球員的所有得分(2分、3分、罰球)一併計算的:PTS / (2 * (FGA + 0.44
* FTA))

這些是混幾周論壇就能做到的數據球皮要能侃侃而談的。

而到了現在,數據量化到了什麼地步呢?來看斯隆體育大會上的論文(2012年的最佳體育革新獎):

Muthuball: How to Build an NBA Championship Team

Alagappan把球員分成十三類:

進攻控球者——傑森特里和托尼帕克;防守控球者——麥克康利和凱爾洛里;綜合控球者:賈米爾·內爾森和約翰·沃爾;投籃控球者——斯蒂芬庫里和馬努吉諾比利;角色控球者——阿隆阿弗拉羅和魯迪費爾南德斯;三分籃板手——洛爾鄧和蔡司·巴丁格;得分籃板手——德克·諾維斯基和阿爾德里奇;三秒區保護者——坎比和泰森錢德勒;罰球線保護者——凱文·勒夫和格里芬;NBA一陣型——凱文杜蘭特、勒布朗詹姆斯;NBA二陣型——魯迪·蓋伊、卡隆·巴特勒;角色球員型——肖恩·巴蒂爾和羅尼·布魯爾;以及獨孤球員——優秀到電腦無法進行分類,也無法與其他球員進行聯繫。例如德里克羅斯和德懷特霍華德。

而根據這個分類分析,森林狼的球員分類明顯不均衡,而上一年的達拉斯小牛明顯更均衡。

(這位M. Alagappan討論這套分類模型的時候,還是在校生。)

籃球運動方面存在著大量的統計數據,而這些數據還由時刻、場上情況、隊友指數、上場時間等等一系列複雜因素導致不同的結果。這就是典型的複雜數據——而且瞬發。群體運動項目中,這就足夠典型的「大數據」了。

但是這數據量仍舊不夠PB級別。

NBA幾位著名的數據量化球隊經理/經理人,包括中國球迷最熟悉的火箭隊莫雷(這個身高將近2米的胖子從來沒有參與過與籃球運動直接相關的工作,麻省理工的MBA…等等,又是麻省理工?),ESPN最著名的球評人約翰·霍林格(虎撲綽號火靈哥,著名的PER值Player Efficiency Rating(球員效率值)創始人),相比而言,劉翔的訓練成果和什麼「三大一從」、「一元訓練理論」關係甚微,和孫海平的關係也沒有想像中那麼嚴苛。反倒是中期改變動作時和體育大學聯合開發的數據分析軟體(內部名稱就叫什麼什麼fly,嗯沒錯,就是劉翔最愛的英文單詞)關係更緊密一些。

後一大類有關運動的大數據應用,叫做「運動預測」,則是純粹性質和意義上的預測。

例如微軟和百度在世界盃結束後均宣布自己預測正確率超過80%,其實並非首創運動預測,這也不是行業內第一次做這類數學預測。

最傳統的數學預測方式,是類似538(FiveThirtyEight)動輒使用的泊松分布回歸分析法。這類方法用於預測評議類選項時的正確性頗高(參見538預測從總統到奧斯卡的歷次成果),但是在足球比賽的結果預測上往往不盡如人意。

微軟的預測分成好幾部分在做,一會兒是微軟研究院與Office團隊共同開發了一款Excel工具,一會兒是微軟的個人語音助手Cortana,百度則只有一個工作部門弄了這個預測:「百度大數據實驗室負責人張潼教授進行了解答:…我們選擇了以下5個方面的數據:球隊實力、主場效應、近期狀態、大賽能力以及博彩數據。對這五個維度的數據進行收集後,我們使用由大數據實驗室的科學家們設計的機器學習模型對數據進行匯總」、「搜索過去5年內全世界987支球隊的3.7萬場比賽數據,並與國內著名彩票網站樂彩網、歐洲必髮指數獨家數據供應商Spdex等公司建立數據戰略合作夥伴關係,將博彩市場數據融入到預測模型中」……

實際上,對於這些預測方式,數據的採集才是他們的難點(重點數據在於球隊實力的數據化、近期球員狀態的數據衡量…),這些採集無論是主觀性還是大量冗餘信息的存在都難以進行有效的預測,而採用博彩數據進行核定才是重中之重。

當然,我個人建議百度以後加上烏賊劉指數做為重要權重予以參考。

這種方法也並非在這兩年才有,創立於上個世紀的Tipp24(Tipp24 - Welcome)應該是最早把這個做出名的企業,他們專門針對歐洲博彩業進行下注和預測。必髮指數和凱利指數的數據統計應用也是各類博彩網站必備的手段之一。

其實方法上更接近傳統的統計分析,沒必要非掛上大數據的名字。

我們都知道競技比賽開始之前是會有博彩公司為此開出賠率的,通過各博彩公司的賠率進行統合進行的預測,又可以稱為「根據他人預測的預測」。實際上數據篩選本身就是由人工生成的數據產生的二次生成。

實際上,前面所說的分析方法也應用在了預測方面,畢竟模擬現實本身也是計算機技術的一個研究方向。

比較著名的包括科隆體育大學(German
Sport University Cologne)的世界盃預測,科隆體大很早就根據自己在足球運動方面的觀察分析系統進行過各種有關比賽的預測。其中最著名的就是06年世界盃的德阿點球大戰「紙條預測」,準確的靠高概率預測中了阿根廷守門員的撲救方向。

但是對於整個比賽結果的預測,由於涉及大量現實模擬內容,而博彩的權重比例相對很低,預測結果並不盡如人意。預測結果大概和我用《冠軍足球經理》湊兩個隊模擬十場的結果成功率差不多高。

當然,科隆體育大學和德國足協合作的項目重點本身,也不在於賽事預測,2004年歐洲杯失利之後,德國足協就開始著手國家隊訓練方式的調整,有一個叫做Urs
Siegenthaler(譯作烏爾斯·濟根塔勒,瑞士人)成為了之後十年的德國隊首席分析師。

09年,Siegenthaler和科隆體育大學的Buschmann教授組成過31個小組,進行4類觀察分析(當時使用的還是老版的Posicap)。這些都成為了球隊訓練的一部分。

但是當把這些訓練數據拿來做還原模擬的時候,預測結果卻不盡如人意。簡單說——模擬模擬之路還很長。

因為分析預測與單純的「預測」不同的是,標記和統計體系在觀察分析下成為一項項更為細化的指標,指標量化變為質化結論的過程,本身就可以為球隊的改善作出有效的幫助——當然,需要和教練員共同進行人工處理才可以實現最後的步驟。

「預測」的現實意義,對於彩民來說更大一些。畢竟西方的成熟博彩業已經有了200多年的歷史,大量的預測方法應用在各家博彩公司之中,例如elo預測、進球率比較法之類,而將博彩預測法的結果進行統計學歸類,對於比賽預測不失為一種有效工具。

拋開體育,大量的生活中的數據面臨所謂的「大數據處理」,典型的案例即天氣預測。各類氣象指征瞬時發生,以典型的「高頻複雜」的形式出現,給各類分析人員提供了大量的可參考數據,從這其中借用建模工具分析提取有效指標,是一種典型的「大數據」應用。

同時還有金融行業交易時,各類金融期貨數據,每秒鐘因一個品種產生的買入賣出數據、量、需求量、成交價格…一秒鐘即有12個數據,每小時42200個數據,加上技術指標和成千上萬的品種,也是一種典型的高頻數據。但是複雜程度?除非需要進行分析預測,否則單純的指數並不複雜。

@采銅 老師從事的用戶研究和趨勢研究後半部分,其實也是典型的長期討論中的大數據研究。成熟的例子自然是亞馬遜的用戶行為分析,但是普遍得出的結論過於簡單粗暴,分析複雜性還遠遠不夠。

常有軍粉說在軍事科學方面大數據如何如何,但是現在大到戰場模擬模擬(天氣、地形、敵我雙方態勢、後援預測…),小到武器的擊發測試(發射速度、風速、射表指征、每一個測速點的形態、溫度…),這些都符合瞬發數據。但是至於這些數據如何複雜,還有待商榷。沒有具體到個體的態勢分析,我個人認為還稱不上大數據。

這些其實是同質的數據,但是無論是否同質,最終都是0和1的表現形式。人為的認定數據有不同的維度,才是定義數據「複雜」的根本。需要有不同維度的處理,才會形成「大數據」的概念。

要能夠高效處理數據,將數據的冗餘部分去處,將高效率低成本的數據存儲起來,形成新的數據表達方法,這種數據融合、跨學科的數據挖掘,才是談及現在「大數據」的根本意義。在數據界(data nature)裡面形成一套完整的生態。資料庫的發展過程是一個比較典型的例子,也為數據挖掘奠定了基礎,機器學習是下一步工作,形成研究而非研究目標,才可以縱談大數據。


答前預警:下方高能!這可能是本人在知乎上最長的一個答案么么噠。

最近,有一則新聞,說的是蘋果與IBM聯手,「把IBM的大數據和分析能力帶給iPhone和iPad平板電腦」,從而「創造一種新類別的商務應用」。「大數據」這個詞又一次佔據了各大媒體的版面和群眾的視野。

最早提出「大數據」概念的是麥肯錫,它當時這樣說:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」2012年5月,IBM發布智慧分析洞察「3A5步」動態路線圖,基於該路線圖,IBM提出了「大數據平台」架構。該平台的四大核心能力包括Hadoop系統、流計算(StreamComputing)、數據倉庫(Data Warehouse)和信息整合與治理(Information
Integration and Governance)。

其實,無論是麥肯錫,還是IBM,他們提出的這個概念,實際上很早就應用在了零售商業領域和科技領域。

比如,大家熟知的沃爾瑪的「尿布與啤酒」的故事、Google在2008年推出的Google
Flu Trends進行流感預測(雖然這貨失敗了)、還有那個有趣的關於Target知道女孩懷孕而父親開始勃然大怒最後道歉的段子(Target基於25種典型消費商品構建的「懷孕預測指數」幫助Target在2002年到2010年間,實現銷售額從440億美元增長到了670億美元的跨越)。

傳統的零售業態中,有一個在國外很流行的東西,也是我很熟悉的領域,即「會員忠誠度管理」,我個人的觀點是,這是貫徹「大數據」理念最徹底的領域。

「會員忠誠度管理」是一個非常複雜的系統,談起這玩意兒,往往會涉及3大業務板塊:

會員系統、積分體系、客戶服務

這三塊業務構成了「會員忠誠管理」的基礎。

那麼,什麼樣的企業使用這套系統呢?很多,比如,航空公司的常旅客計劃、銀行信用卡中心的客戶服務與積分計劃、海外零售行業的異業合作聯盟,等等。

我們不展開說具體的業務,我們只說這個系統做什麼,如何運轉。

會員系統擔負的職責是:

  1. 獲取顧客的基本信息

  2. 對顧客按照消費指標進行分級,管理顧客的會員級別

  3. 發放與管理會員卡

積分體系承擔的職責是:

  1. 根據用戶的消費情況,贈送積分

  2. 通過積分綁定可兌換權益,實現品牌、體系內的消費閉環

  3. 作為可等價物開展異業合作與資源互換

  4. 積分與會員卡綁定

客戶服務承擔的職責是:

  1. 儲存與管理會員資料

  2. 解決會員與非會員顧客遇到的問題

  3. 提高會員與非會員顧客對品牌的滿意度

  4. 維繫會員顧客、轉化非會員顧客為會員

  5. 對會員顧客進行權益、活動等方面事項的告知

我們即便是用如此簡單的描述(雖然有點啰嗦)都可以發現,這3個系統的聯動是圍繞一個目標來進行的:

提升品牌已擁有顧客的忠誠度,實現顧客在品牌內的持續消費與黏著,並在此基礎上減少獲客的成本。

容易理解么?其實很容易理解。

已有的顧客維繫好了,滿意度上去了,顧客會願意駐留在品牌內,持續的對品牌進行消費,同時,顧客會願意自發的進行口碑傳播,從而帶來新的顧客。

這套系統運行的時間越長久、積分幣值體系越穩定、納入的異業合作越多、客戶服務做的越好、會員分級管理越精細,對企業的盈利、顧客的留存、流失客戶的減少就越有幫助。

我們可以設想一下,這套系統是如何實現「大數據」應用的:

百貨商店A,通過與公司B合作,通過利用該商店會員卡了解交易量變化和用戶忠誠度的變化,加上通過一些媒體和調研建立消費者行為數據,得出能夠促進消費者消費活躍與忠誠度上升的商品與活動,從而進行針對性營銷,對不同偏好的顧客發放不同的營銷手冊,從而促進了銷量的增長。

這家百貨公司A是美國的梅西百貨(2013年有至少15%的銷售來自電子商務,其在北美門店的布局、品牌組成、貨品組成都是基於用戶的消費數據計算而完成)。這家合作公司B是德恆(曾幫助Tesco扭虧為盈)。這個應用場景是梅西百貨推出的「我的梅西百貨」計劃。

無獨有偶, 某通信運營商C聯合了某互聯網公司D,利用簽約手機的地理位置信息,為顧客提供類似黃頁的服務,推送附近的餐飲信息、末班車信息及其他營銷活動。同時,由於當地NFC技術的發達,運營商也了解用戶的消費行為和偏好,從而將這些數據進行整合和挖掘,找到新的市場。

這家運營商C是日本Docomo,互聯網公司D是Twitter。他們的合作似乎並不成功,但卻是利用龐雜數據進行整理與歸納並找出新的盈利點的有趣嘗試。

題目里說到的體育,於是請讓我要吐槽一下百度預測在這次世界盃預測中的作法(誰叫我沒有按照它預測的買彩票啊啊啊~!):

這是決賽的預測雷達圖,我們看到了什麼?

原來百度的世界盃預測基於5個維度:

  1. 球隊實力

  2. 博彩指數

  3. 大賽能力

  4. 主場效應

  5. 近期狀態

這樣的維度,首先要看用於什麼用途,對於我看到的百度預測的用途來說,對於彩民,或許是有用的,有這些維度已經夠了,但是如果我們對比一下題中描述的「Match In-sights」,那百度預測這樣的數據維度能否幫助球隊的訓練、戰術的針對性安排與實力提高呢?

明顯是差不少。

首先,缺少環境因素指標:

  • 天氣-球員對天氣的適應性;

  • 場地-球員對場地的適應性、場地對戰術安排的局限性或促進性等等

然後,缺少球員習慣指標:

  • 位置

  • 有利足

  • 習慣(突破?傳球傾向?傳球習慣?)等等;

缺少教練的戰術習慣指標:

  • 陣型傾向

  • 進攻與防守傾向

  • 壓迫傾向

  • 防守強度

  • 換位習慣等等

……

當然,我們可以看到並且感到驚訝甚至驚艷的是,這是一個非常非常有趣的嘗試,並且做的很不賴,我們可以期待的是,未來這樣的大數據系統會產生更大的作用,帶來更大的價值。

同時,我們也應當意識到,在互聯網領域,搜索引擎是天生具有大數據應用研究與實踐潛質的產品類型,所以你看,Google嘗試了流感預測,百度也開始玩預測(不僅僅是世界盃預測,還有城市、景點、高考、疾病預測,包括看它未來好像還打算做房地產、票房、就業、金融方面的預測,有興趣的可以上百度預測-大數據 知天下了解,挺有趣)。

最後,有一些話不吐不快。

「大數據」這個概念,太多的人有誤解。並不是說你掌握了越多的數據,越細的數據,就有機會通過「大數據」來獲得一個金礦。這裡的關鍵點在於你如何分類、利用、整合、分析這些維度的數據,並非所有維度的數據都有用。

舉一個很簡單的例子,這個例子其實很貼近我們的日常生活,甚至有可能會給一些想創業的朋友一些靈感。

一個餐廳,對半徑5公里的寫字樓提供外賣服務。請問,這個餐廳有大數據么?如果有,可以利用大數據做什麼?

這個問題,如果我來回答,我會說,有大數據,這個數據是什麼呢?是一個固定階段里,寫字樓員工對外賣的消費習慣,這個消費習慣對接了哪些指標呢,我隨便YY一下哈:

  1. 公司業績發展情況。半年裡,一些公司的外賣少了,一些多了,如果1年後還是這樣的趨勢,說明有些公司的業績在下滑。能做什麼呢?你猜。

  2. 餐廳菜品和其他服務的可提供程度。訂餐者的口味在各個季節有沒有變化,一定有,那麼夏季是不是可以增加清涼飲品的訂購或者贈送,冬季是不是可以增加熱飲甚至湯類的供應?那是不是可以去搞一些贊助或者夾一些廣告?是不是可以研發新的菜品?

  3. 寫字樓白領的消費能力。白領訂餐的客單價是否越來越高,每年提價之後,白領是傾向便宜的套餐,還是無所謂保持自己的口味?這些指標做什麼用,我想是有很多想像空間的。

好了,假設這家餐廳生意興隆,開了很多分店,覆蓋了多個商圈,又會怎樣呢?

留給大家去思考吧。我覺得這是一個很有意思的話題。

真長,考慮一下放到俺的專欄去,嗯嗯。


關於這個問題,我個人的感覺是:現在說「如何充分利用大數據、藉助大數據掘金」有點早。

就好比道長的答案所說( @笑道人 道長你不要拿學術口來打壓我這種「民科」我被群嘲過好多次了謝謝),大數據目前的問題在於數據處理和挖掘,而且是「對不同類別的數據進行匯總進行處理,包括統計分析、建模、模擬抽樣、乃至預測」。

這說明大數據的方向並不是單純的領域內數據,也不是單向性流動的,而是多領域內的數據應用,是複雜的抽取、匯總、處理的過程。如果需要,數據搜集範圍甚至可以擴散到大洲和全球範圍內。

既然問題的補充說明當中說到了足球,我也從足球說起吧。貌似除了足球稍微懂得多一點之外別的我還真是二貨民科了……

關於之前新聞報道的「高盛經濟學家通過建立數據模型,分析自1960年以來超過14 000場國際比賽,最終得出了他們對本屆世界盃的預測結果——五冠王巴西在家門口捧得第6座金杯的可能性高達48.5%,而名列第2的則是桑巴軍團的宿敵阿根廷」;

我想說的是,這類宏觀的數據,時間跨度太大了,在大數據概念還沒有出來之前,就有分析指出:1960年到1986年的世界盃/歐洲杯的正賽和大洲預選賽,以及各場國際友誼賽結果,無法為1986年之後的國際大賽分析和預測提供足夠有說服力的依據。

一個流行的觀點:歐洲頂級聯賽的變革期從1984年歐洲杯之後的意甲聯賽坐大開始。1985年的海瑟爾慘案使得現代足球的重心回到歐洲大陸,意甲聯賽的崛起和歐洲三大杯的成熟讓職業足球的商業化進程加快,職業聯賽的權重係數,職業球員當中外援的數量和表現,以及聯賽的賽場數據得到了更多的重視。

從國際足球歷史和統計聯合會(IFFHS,全稱International Federation of Football History and Statistics)的成立時間可以看出這個觀點的合理性。請注意,這個合理性只能從一個方面進行說明,無法提供必要的論據。

IFFHS是一個由FIFA認可的、進行足球數據與歷史統計的機構,成立於1984年3月27日,由Alfredo P?ge在德國萊比錫創建,目前總部設在阿布扎比。該組織自1991年起根據洲際俱樂部賽事的俱樂部表現製作世界俱樂部排名,對於聯賽水平的評判標準紛繁複雜,主要項目包括聯賽俱樂部在洲際比賽中的成績,聯賽中外援的數量,該聯賽在該國以外的收視率,以及激烈程度,聯賽密度等諸多項目。

另外,當時的國內足球刊物曾經提到,1986年和1990年世界盃,開始有了射門次數、進球、紅黃牌、角球、定位球之外的統計數據:犯規次數。其最大的統計對象當屬球王馬拉多納。當然,這只是數據統計健全的開始。

在20世紀90年代後期,足球數據網站和專業數據公司出現,開始人工操作結合視頻分析技術,在比賽中實時提供數據。

直到後來,有了專業的體育數據企業出現,例如著名的體育數據公司OPTA,在每場足球賽中記錄的數據多達1500項,但目前為止,尚不能說明這些數據的累積在比賽分析和預測上一定能起到立竿見影的效果。

例如,2004年阿森納主帥溫格通過數據得知,當時還默默無聞的弗拉米尼一場比賽能跑14 000米,但是溫格「依然不確定他是否跑對了方向」,直到現場看了他的比賽才決定和他簽約。

當然,只提到球員的比賽數據是不夠的,在比賽的背後,還有醫學健康領域的數據,用於球員傷情監控/預防。這才是我想說的重點。

在國家隊/俱樂部確定使用一名球員上場比賽之前,首先會有這名球員的身體機能數據。這份數據基本上通過國家隊/俱樂部醫療部門的體檢結果累積,或者通過與國家隊/俱樂部合作的醫院的檢測結果累積。其中關於身體機能的檢測數據項目多達50項以上。

在俱樂部層面上,培養一名球員,會根據他的健康狀況確定合理的飲食計劃,並結合系統訓練,以及比賽的監測結果不斷調整。這樣的計劃會一直從俱樂部延續到國家隊。

在這方面,設備和理念最先進的是義大利AC米蘭俱樂部的米蘭實驗室——2002年建立,投入500萬歐元以上、花費18個月時間建成,目的之一就是為球員專門組建資料庫,用於保證運動員競技狀態的受傷風險預估。

米蘭實驗室可以從球員的肌肉類型和生活習慣等方面進行前期數據收集,再分析數據以便對球員狀態進行預測,甚至每個球員的傷病情況診斷、恢復期、康復內容,都要依靠對這些數據的分析和整理。

數據搜集和分析大概包括:球員肌肉類型、身體結構和機能、歷次體檢狀況等屬於醫學類數據,每場比賽中球員的各項數據(衝刺次數、跑動距離等)屬於比賽數據,場地溫度、濕度等屬於天氣數據、各項訓練強度監測屬於訓練數據。等等。

在每場主場比賽時,球場四周有8台攝像機收集球員比賽中的數據。每兩周還會安排一次球員的體檢,包括身體結構和機能,生物化學、生物物理、情感和心理等方面,以上數據經過匯總,組成龐大的球員資料庫。

另外,米蘭實驗室的心理學家德米凱利斯教授(這個名字好詭異)在實驗室內部的「MindRoom」幫助球員戰勝心理壓力,德米凱利斯會根據球隊的賽程來制定合理的心理教學大綱,在聯賽、冠軍杯和義大利杯中找到一個正確的平衡點,讓他們成為訓練的主角,而非被動地去接受訓練。

在互聯網的高速發展下,球員的治療和健康數據成為傷病治療過程當中極為有價值的參考依據,以便球員在客場或國家隊作賽過程中出現傷病之後進行綜合分析。因此需要打通的是醫療數據的封閉性因素。

一個很現實的問題,大多數外出比賽受傷的運動員會在當地建立病歷、進行一系列檢查;之前建立的數據量龐大的健康檔案(其中包括大量的非結構化數據和半結構化數據,例如核磁共振、B超、心電圖、腦電圖、病理分析等)存儲在運動員所在地的醫療機構當中,很難為臨床數據對比、臨床決策支持等給予應有的幫助。

這些本地數據的存儲量非常龐大,對於不熟悉受傷運動員具體情況的外地醫生,在診斷活動中如果可以異地調閱這些數據,就能根據過往病史結合當今傷情,做出更準確的診斷,並給出治療方案。

通俗一點說,這是目前醫療信息化、國家/全球範圍內醫療數據通用化的未來發展方向,也是能夠惠及運動員之外的普通民眾的一個大數據項目。如果這樣的大數據存儲、檢索、實時分析功能真的能夠普及,可以在臨床診斷、疾病控制等方面得到充分應用,幫助醫生實施更加有效、準確的臨床診斷和用藥決策。甚至能夠協助政府公共衛生部門完成疾病預防和控制。

我現在所持的疑問在於,醫療信息化、國家/全球範圍內醫療數據通用化在醫學術語的溝通上是否存在語言障礙,還有就是異地的診斷信息和治療方案,本地的醫師如何通過最無障礙的方式進行閱讀。如果有這方面領域的達人,請私信指教一下,不勝感激。

其他類似的例子:

總部設在法國的數據公司SUP(Sport Universal Process)為多家歐洲俱樂部所聘用,進行數據分析。該公司的解決方案名叫AMISCO PRO,主要功能為:

1.呈現球隊球員二維跑動

2.與比賽錄像同步

3.整合的圖形工具:越位,模塊,線條

4.完整的個人和全隊統計數據

5.圖表,表格,清單形式的數據

6.測量身體活動和體質報告

7.個性化規則

8.可輸出數據到第三方應用

******************引用內容的分割線***************************

在莫耶斯跳槽曼聯之後,埃弗頓請來維甘競技隊的馬丁內斯來當他們的新主教練。馬丁內斯對數據分析的迷戀眾所皆知,他在家裡放了一台60吋的觸屏電視,再結合能夠記錄分析球員表現的軟體Prozone,每天反覆觀看球隊的比賽錄像,特別是輸球的比賽,最多會看十幾次,去挖掘其中的敗因。

在馬丁內斯的指導下,埃弗頓會在訓練中記錄每個球員的每個動作:

「我們用GPS和心率測量儀來監測每個球員的狀態。從體能的角度來說,最顯著的數據是衝刺數量、衝刺距離和每個球員投入的高強度運動次數。我們這樣監測一整個賽季下來,就能知道一個球員目前狀態是否疲勞,以及他需要多久的休息時間。」

******************引用內容結束的分割線***************************

提到醫療信息化、國家/全球範圍內醫療數據通用化,不可避免地要說到百度的疾病預測項目。該項目目前就流感、肝炎、肺結核、性病這四種疾病,對全國每個省份以及大多數地級市和區縣的活躍度、趨勢圖等情況,進行全面監控。

我感興趣的是,不知道百度疾病控制的大數據搜集,會不會源於搜索引擎對網路上患者描述自身病情的搜集。這些病情反饋當中,由於大部分患者並非實名描述,而且缺乏專業醫學知識的支撐,加上太多的信息雜訊,還不足以成為標準化數據,但只要病情描述無誤,地點IP準確,應該是可以為病源地區、人群界定和病理推斷提供依據。


-

前記

題目問的是大數據的應用,但是關於大數據,我有一些話想說,因此這篇文章基本上寫成了我最認真寫的回答之一。

大數據和O2O,似乎是現在所有大公司必不能缺少的業務,也是許多創業公司若能則儘可能傍上的大腿級概念。

但我一直覺得,對於一般的創業者和中小型公司而言,O2O幾乎沒有搞頭,主要問題出在線下,即不了解線下,又吃不了苦去深耕去動苦力地推。今天互聯網思維被熱炒,說的有「開放」、「分享」、「自由」、「創新」等一堆關鍵詞,但實際上真正勤懇做事的人,沒有人出來說思維,只會說事。我甚至覺得,在虎嗅知乎上面,我一看到互聯網思維,我就覺得它臉上還寫著「投機取巧」、「自大而不肯落下凡塵去吃苦」。不是那些辭職賣豬肉成功的人有互聯網思維所以成功,而是因為即肯想,又肯干。今天大多做O2O,特別是做O2O創業的人,很肯想,但不太肯干、吃線下的、地推的苦。

但大數據不同,它純線上,且機會在於,今天可以獲取到的數據已經和多年前不一樣了。不只是移動互聯網,不只是手機、LBS、麥、螺旋儀、空氣檢測器,還有和題目這個例子裡面的相關的球員跑動數據,各個的士每時每刻在的位置,公交車多久到站及其平均在每段跑多久,交通擁堵情況,人的心跳體溫血壓體重酒精含量等等。

如何理解大數據?

我想說的如何理解大數據,不是在各種論文、報告裡面的大數據的定義,我只是談談我自己的感受。作為年度熱詞,大數據被許多將懂不懂的人時常聽到、引述,一般被理解為「大量的數據」,但我不這麼理解,或者我認為,這麼理解,意義不大。

因為「大量的數據」是一直有的,從IT技術開始,數據就一直存在,谷歌百度Bing這類搜索引擎無疑獲得了最多的數據,當然今天我們看到在人工智慧、機器學習方面,他們的積累和研究估計也是最多。但是,似乎此前聽到的大數據應用裡面,沒這幾家什麼事,至少我沒聽到什麼有趣的應用。

那麼大數據是什麼?

我理解大數據是「新的數據」,和「新舊數據結合」,為什麼今天的時代,大數據如此火熱並且我也覺得它真的值得火,因為今天是移動互聯網的時代、快要進入可穿戴設備的時代,所以新的數據指標、數據類型層出不窮,大數據此時真的是嫩得可以掐出水般誘人。

我舉個我聽過且影響深刻的例子。

第一個例子發生在芬蘭,是我一個在芬蘭留學的性格像產品狗的碼畜朋友跟我說的。他在芬蘭時很不安份,經常在上學同時參加各種創業沙龍、聚會、孵化器公開日等。他聽到了許多極其有趣,在國內真是聞所未聞的例子(當然也可能是因為文化的原因所以國內聽不到),其中我印象最深刻的一個,是他在諾基亞快死時弄的一堆孵化器公司裡面的一個,就是關於大數據。

這個例子的數據一點也不大,簡簡單單。它是一個專為釣魚愛好者而做的釣魚應用,它提供的能力是,你選擇你今天想要釣什麼魚,它告訴你,在你附近有幾個點,分別在哪裡,有多大概率釣到幾條這個魚。Exciting!典型的大數據應用對吧,它的做法很簡單,每個用戶去某個地方釣魚時,提供釣魚日誌功能,讓你今天記錄你釣了幾條什麼魚。這對於用戶來說非常自然,且有意義。而它會記錄手機LBS位置、當地當時天氣、溫度、濕度以及其他可能的和魚類出沒有關的指標,在雲端記錄,加以簡單分析,就可知道,某個區域,在什麼條件下會出產什麼魚,再逆推,便知道你要某種魚時,可以去哪裡。這個公司在當時(2年前)便已盈利,用戶好像是已有幾十萬且在穩步上漲,聽著好像很少(我當時第一感覺也鄙視說少),但你妹啊芬蘭總人口就幾百萬,且人家消費力不是鎮內屌絲可比好吧。

再比如,腦補一個場景,估計不久的未來可以實現。根據國人帶可穿戴設備時,持續獲取的步數、心跳、血壓、體重、體檢信息(即用戶們得病的情況),以及一些醫學資料庫內的研究,提示你說,你這一年如果還像去年一樣不鍛煉一直宅著,有80%的概率在一年內罹患脂肪肝、肥胖病、頸椎骨質增生....我去想到這,我簡直想在這個夜深人靜的時候出去跑步了...

大數據的國內現狀

國外的情況是,按照另一個米國留學男提到的,我查了一些資料。美國北卡來羅納州立大學分校史德利·阿霍爾特曾經提到過,需要新的工具來使數據消費者進行大規模應用。「從2010年開始,每兩天產生的數據就相當於歷史上到2003年產生的數據總和。需要數據科學對這些數據進行分析、挖掘,利用。互聯網使得數據的移動、共享和發現更容易,但研究和分析卻不是那麼容易的事情。」

阿霍爾特以名為美國快捷藥方的公司作為例子,這個公司宣稱已有10億個藥方數據用於分析,他們通過預測模型找到了400個甚至更多的影響因素,來發現因病人不遵循用藥規定帶來的風險,讓病人的郵購行為和處方高度一致——這一項研究每年可以減少損失高達3170億美元。阿霍爾特強調,必須有專門的數據科學家進行大數據的研究以及應用工作,「他們必須能獲取數據集,對它們進行數學建模,以及懂得建立模型的所需要的數學理論。他們必須能發現並闡明數據揭示的問題,即從數據中發現合適的問題。」

在國內,大數據有不少企業和實驗室也在研究,歸根到底,目前走的還是實驗方向,以及預測和分析為主體的探索過程。不過現在也有一些有成果的例子。比如百度大數據的世界盃預測,著實震撼到我,除了預測準確度之外,很高(見下圖),還是足球這種我覺得不確定性大過天的事情。我只能說,這次百度讓我竟無言以對,真是枉為百度一生黑。

我不太清楚百度做世界盃預測花了多少時間和團隊精力和資源,或許幾十人,3個月?但如果說就是這幾十人在3個月內做到這一切,就好像在說吃5個包子可以飽所以就直接吃第5個包子一樣。百度在人工智慧、機器學習方面的積累和努力,我並不清楚具體是從什麼時候開始,但從2個事情來看,估計非常之早。一是Andrew Ng(Google Brain之父,世界級技術大牛,現在做百度大腦項目)的加盟,二是百度的基因。

百度的基因是技術。這點和阿里的基因是運營,騰訊的基因是產品一樣。基因指的就是解決問題的思路和方法。比如阿里,無論啥事兒,就是想著怎麼推,典型的是來往的員工配額計劃;再如騰訊,無論啥事兒,就是想著產品設計怎麼搞體驗要怎麼好。所以阿里做重產品的活兒很難成,騰訊做運營的活兒很難成。而百度比較有意思,相對介於兩者之間,做產品做運營都不一定不好,它的思路是基於技術。

形象化點打個比方,就大數據這個事:

1. 百度會有一個科學怪人在想,哎呀哎呀,聽某學術雜誌上的最新論文(如XX年1月)說,實現一個釘子那麼小的物件掛在耳朵上,就可以全天候獲取這個那個數據,簡直碉堡了!快研究研究。7月,研究出來了,技術團隊極其興奮寫了個報告給老闆,老闆就安排產品團隊開始想,這個技術可以怎麼用啊,可以用來搞啥啊?想清楚後,做出產品來,10月。

2. 騰訊會有一個產品狗蛋在想,現在可穿戴設備這麼多了,我媽媽昨晚還跟我說現在她帶了百度的那個東西在身上,怎麼也沒就之前告訴她她會生病啊,不是記錄了我的步數、心跳、血壓么。於是產品狗蛋寫了個PPT給老闆說他初步推測,百度的技術咱們研究研究挖挖人,估計可以實現,11月。研究技術,次年2月,出產品,次年2月。

3. 阿里會有一個運營土豪在想,百度騰訊做的那個東西,我賣差不多的,用聚划算賣,捆綁銷售。嗯還送淘金幣好了。

其實沒什麼好壞,只是各有優劣,比如阿里的雖然賣得快,但容易沒啥自己的產品和想法和思路,長期搞不定,大數據上,阿里的類別也的確最難搞,時尚趨勢或者未來流行啥,實在是偶然性太大太大了。百度的雖然技術積累好賣得快,但容易因為是借著技術想需求,容易想到腦補或者超前的需求,掉大坑裡去。而騰訊的雖然產品需求踏實體驗好,但時間滯後,而且跟(chao)隨(xi)策略被人詬病。

從大數據目前更多是數據積累階段,還未出現百花齊放,許多有趣而酷的大數據應用出現的情況來看,百度此時的數據和技術積累估計是最多的。從這次世界盃預測的情況來看,也的確如此。但是也確實有可能產品需求上落坑,比如根據本次世界盃預測的能力,花大精力做了一款產品結果沒人需要...

此時的情況,似乎很像例子里說的XX年1-7月。未來會如何?

-


只說說互聯網領域的大數據,目前在中國互聯網,大家泛指的大數據應用上,商業化比較成功的就是:智能推薦

智能推薦的目前涵蓋的範圍已經比較廣泛了,主要包括電商推薦,廣告推薦,視頻推薦,文學推薦還有很多很多。

案例多了,基本所有大的電商網站上的「猜你喜歡」,騰訊qq空間的廣點通廣告推薦,視頻網站上面的推薦內容等。

別的不了解,但從騰訊公司財報中可以看出,廣點通廣告推薦的效果是非常好的。廣告收入在之前占騰訊總收入7%-8%的樣子,上線後廣告收入佔12%。並且是在遊戲等領域收入增長近50%的背景下,可想而知,廣點通對廣告收入的拉動。

這些推薦原理都差不多,根據大量用戶的網上行為進行聚類和畫像,利用邏輯回歸等等機器學習演算法計算興趣,然後得到用戶的興趣列表,選擇素材進行推薦。但是這整個流程,我只能說理念是使用的所謂的大數據分析的理念,使用的數據量級撐死也就是PB級,這算不算大數據我都懶得爭。

題主可以弄本《大數據時代》看看,裡面有很多案例。

作為從業者,我只能說大數據的路還很長很長,現在冰山一角都沒到,卻變成人人嘴上都掛著,不談大數據都不好意思出門。

最後,盜圖一笑


大數據概念很大,但落地可以很細。

現在普遍存在一種認知,認為大數據應用門檻很高,只有大公司能夠負擔。其實不然,由於開源項目的蓬勃發展,很多應用都能以很低的成本實現。在中小企業中,大數據的應用已經成為可能。講三個親身經歷的故事。

第一個故事:我太太曾在某互聯網獵頭公司任職。他們公司經常有大量的簡歷需要分類,根據性別、年齡、地區等信息。採取的方法是把簡歷分發給不同的獵頭顧問,讓他們手動分類,非常耗時間。有次我太太有幾千份簡歷,需要在周末兩天內完成,非常辛苦。我研究了下簡歷的格式,用python實現了這個功能,前後不超過兩個小時。她的同事們都紛紛驚呼雪中送炭。後來他們公司的技術團隊被老總給罵了一通。作為互聯網公司,他們是有不少程序員的,然而並沒有人主動想利用開源工具去解決這個問題。

第二個故事:我曾經義務幫忙一個團隊做藏漢詞典的電子化工作。文檔都是掃描版本,需要轉化為電腦能識別的格式。最笨的方法,就是對著文檔打字,這樣會非常耗時。我們當然想到用文字自動識別(OCR)來做。這種軟體市面上其實有很多商業版本,漢語識別都還不錯,但藏漢混合都不太好。輾轉幾次之後,發現了google的一個開源項目tesseract,於是利用這個開源項目實現了詞典的自動識別工作,總共也就幾天時間。雖然藏語的識別率不是很高,但是已經能用,再找人校對就好。現在詞典的電子化工作已經完成,只等APP上線了。

第三個故事 :做股票的量化投資分析,需要大量的數據。對小團隊來講,獲取數據並不容易,好點的商業軟體都比較昂貴。後來開源項目tushare出現了。這個項目利用新浪財經的介面,將股票數據的獲取變得極其簡單,大大方便了做股票量化投資的朋友。曾經不只一個朋友突然微信我,問這個項目是否是我做的,真是好用。我都忙不迭解釋,是另外一個朋友做的,只是單純掛了我的名字而已。現在這個項目很火,我也算是沾了光。

上面的故事,都是中小團隊利用開源工具實現效率的大幅提升,成本也很低。我本人在金融行業工作,對於使用開源工具建立量化投資體系較有心得。比如,自動獲取數據、自動交易平台、爬取網路關鍵詞,甚至是人工智慧演算法,都有成熟的開源項目可以使用。

之前我一心想把類似的技術應用在股票期貨的投資上面。但最近參加了長江商學院的一個講座(人工智慧和金融),結識了很多傳統企業的老闆,他們對類似的技術也非常感興趣。我突然意識到,既然互聯網公司都沒能充分利用開源項目,那傳統的企業中,肯定大量存在著可優化的地方,而且是低成本實現。我甚至猜想,很有可能僅僅利用Excel的自動化,就能解決不少問題。

這個方向才是真正提升社會生產效率的。把類似技術應用在股票期貨上,多少有些零和博弈的意思,其實是種浪費。

-------------------------------------------------------------------------------------

有人質疑說,我講的太簡單,不是大數據技術。我的答覆如下(一本正經地耍賴):

大數據是不是泡沫? - 知乎用戶的回答


現實生活中非常多,很多大家都已經提到過了。我也說一個,像視頻網站,現在都有廣告推送,但是這個推送並不是盲目的,而是通過大數據分析你觀看的視頻類型來推測你的性別,年齡,甚至消費能力,進而推送不同的廣告。舉個例子,看球類比賽的男性朋友多,韓劇,綜藝節目的往往女性多,而關注新聞類節目的普遍年齡偏大等等。


謝邀,有一個大數據應用的例子就發生在我們周圍,那就是我們再熟悉不過的滴滴。哪輛車來接乘客?選擇哪個路線最便捷?這些都依賴於數據。

現在,沒有人不知道滴滴打車。從第一單到日成交 1000 萬單,它只用了不到 21 個月的時間。

短短的時間裡,我們見證滴滴打車的迅猛發展,也見證它如何影響我們的生活,如今「出行」這個詞,與滴滴已經緊密相連。

這有賴於滴滴打車通過出行數據的深度挖掘,進行出行服務方面的創新,以及針對不同城市展開的城市化運營有密切的關係。

愛范兒旗下的創業社區 MindStore,邀請滴滴打車的快車運營負責人孫樞,分享了「快車拼車」這一產品的誕生始末,以及在滴滴在不同城市運營的基本機制。

(滴滴快車運營負責人孫樞)

以下是分享全文:

大城市已經非常擁擠了,在北京工作,尤其是五道口上下班的人都知道,下班時打車回家是非常痛苦的。

然而,我們的城市化進程卻越來越塊。中國的一線城市車輛密度已經超過任何一個其它國家的城市,比如杭州、北京,遠遠高於東京和紐約。

車輛密度高,導致路面上的車輛行駛速度緩慢。當我們每天上下班都要花那麼長時間在路上,每個人的出行成本提升,整個社會的效率下降。 4 年前,滴滴打車上線時,我們希望解決一個簡單的問題:當你需要打計程車的時候,你能夠打到。

這 4 年,我們通過一個業務線一個業務線、一個產品一個產品,逐漸地把滴滴打車打造成了一個多元化、多業務線的出行平台。從一開始的計程車、專車、順風車,再到快車。之後又有代駕、試駕、企業出行等服務。這麼多條業務線,我們想做的很簡單:滿足絕大多數人的出行需要。

除了業務線增加,我們也可從數據看到滴滴打車迅速成長:

  • 使用人群 3 億;

  • 2015 年全年訂單總量 14.3 億,是美國 2015 年所有計程車訂單量的 2 倍;

  • 2016 年 3 月,滴滴打車整個平台的日訂單量突破 1000 萬,相當於美國全國每日移動出行的 5、6 倍。

隨著我們規模的迅速增長,每天積累大量數據,通過對這些數據的深度挖掘,我們有了一些比較有趣的發現。

第一個,關於空駛率。

當我們開始用移動互聯網連接計程車的時候,一個我們不斷去努力優化的指標就是空駛率。這個指標的背後,是我們在思考,怎麼能夠讓在路上跑的司機師傅們提升產出,減少一趟行程結束和第二趟行程開始之間的時間,以及油費上的浪費。

實際上,以我們現在的規模和掌握的數據,我們基本能夠在早晚高峰做完一個訂單結束,第二個訂單就進來,這時候,司機的手機端立即就響了。但是即使能做到訂單的緊密銜接,一般情況下,司機還是需要花 5 分鐘的時間,從第一個乘客的下車地點開到第二個乘客的上車地點,所以算下來每個小時還會 10% 的空駛率。

那麼一個直接的問題就是有沒有方法我們能夠完全解決空駛率這個問題,讓司機在這一個小時裡面都有產出。

第二個,關於車內空間的使用。

做滴滴大巴後,我們開始非常關註上座率。也就是說一個大巴裡面的30個或者40個座位,有多少個是實際有乘客的。上座率越高,大巴資源的利用率也就越高。

轎車其實也是一樣的,我們發現大多數在滴滴平台上的車型,除了司機之外,都能夠差不多坐四個乘客。但是一般的行程只有一到兩個乘客,早高峰、晚高峰,大家都是上班或者下班回家,一般都是一個人,本來可以坐四個人的這樣一個車型,車內的資源只有用了40%。於是,我們開始更加深度去思考上座率這件事。

第三個,關於滴滴平台上特定時間段的供需平衡。

當一個滴滴用戶打開滴滴,他是否能夠叫到一輛車,應該是我們這個平台需要去滿足的一個最基本的需求,我們叫應答率。應答率也是我們每天,我們的運營、技術、產品非常關注的這樣一個指標。

基本上,在不斷地增加我們平台上的車輛和司機,同時通過不同的策略和運營方法來鼓勵司機在對的時間上路接單,也在不斷地優化我們的派單和匹配演算法。但是發現在幾乎所有城市裡,出行需求實在是太龐大了,早晚高峰很難滿足得了。

一旦碰到差的天氣,,比如下雪,情況就更糟糕了。所以,我們會思考,除了不斷地增加車輛之外,我們有沒有其他方法能夠保證我們的用戶體驗,保障每個用戶在需要的時候是能夠打到車。

第四個,同類出行需求的滿足。

我們發現,當一個城市的規模變大之後,會有很多類似的行程在類似的時間發生,特別是早晚高峰。舉個例子,每天早上 7 點到 9 點之間在北京有上千上萬個用戶從北京北邊一個龐大的居住區「回龍觀」往「上地」或者是「五道口」方向。

他們很大一部分的行程是重疊的,我們能不能把這些行程合併起來?

所以怎麼減少空駛,怎麼利用車內的空間,怎麼能在早晚高峰和天氣惡劣的時候滿足需求,怎麼連接這些重疊的行程,這些觀察和思考最終成果彙集在新的共享出行的方式上——拼車。

那什麼是拼車?拼車是您和相似出行路線的人共同坐一輛車。

我們先看看非拼車是什麼。當我們自己獨立出行的時候,一個司機從第一個乘客的上車地點,接上乘客 A,根據最佳路線開到乘客 A 的目的地。乘客 A 下車,司機結束訂單。司機再空駛去乘客 B 的上車地點,把乘客 B 放下,再空駛去接乘客 C,這樣一直下去。

那拼車有什麼不一樣呢?一個司機先接上乘客 A,但是在途中有可能乘客 A 才上車不久,有可能是走了一半了,司機又接上一單,那他順路會去接上乘客 B,那之後司機再按照兩個人的目的地順序,看誰最近,把兩個乘客送到他們相對應的目的地。

所以總體來講,在拼車的情況下,一輛車一個司機可以用稍多餘一個行程的時間和距離,來服務之前需要兩倍的時間來完成的兩個行程。也就是說更短的時間、更短的路程來服務同樣的用戶,效率更高了。

對於一個用戶來講,選擇拼車,也有可能會有三種不同的體驗。第一,有可能是正在附近沒有幾米,另外一個乘客也在叫車,同時去的地方也比較順路,那你們倆在出發點就拼上了,這種發生的可能性還比較小的。

第二種是我在叫車的時候並沒有拼上,但是在行程上,滴滴的後台還在不斷地計算,在收集順路的訂單,如果發現正好有一個人離你的行程不遠,也在發單去比較順路的一個目的地,它就會把這個單子發給這個司機。匹配上了,你就會在路途中接上第二個用戶,一起去你們類似順路的目的地。

第三種等於是第二種的反過來,我叫車了,正好另外一個拼友他在行程中離我很近,同時我們倆也是去類似的地方,所以我的車在來接我的時候,這個拼友已經在車上了。

產品聽起來比較簡單,但往往很多時候,簡單的產品背後需要非常大的工作量。拼車這個產品是依賴於目前滴滴出行的出行數據,每天我們採集的出行數據超過 50 個 TB 的,同時每天路徑規劃也超過了 50 億次。

基於上面的數據量,我們可以進行最大限度的數據挖掘,不斷地通過大數據和深度學習驅動的人工神經元的這樣一個智能網路,來實現非常精準的預測能力、智能的調配能力和動態的定價能力。

那麼這樣一個大數據驅動的共享出行方式能帶來什麼?有什麼意義?

首先,拼車能夠提高叫車的成功率。以前我們一個人叫車,必須要有一輛車來匹配上,現在一輛車可以當兩輛用。拼車能夠在不增加道路一輛車的情況下,大幅度地提升叫車的成功率,提升整體的用戶體驗。

第二點是可以提升司機的時薪。舉例,原來 30 分鐘 10 公里,一個車主一個司機只能服務一個用戶,現在他稍微多花一點時間,有可能 35 分鐘、40 分鐘就可以服務兩批不同的用戶,效率更高,司機每小時的利用率更高,空駛率甚至可以降到 0,司機的收入自然也就變得更高。而司機的效率的提升,整個平台效率的提升,可以進一步地降低出行者的出行成本。原本一個人要付這個行程的費用,現在跟一起拼車的人共享了那一部分行程,就可以一起負擔了,出行成本可以至少降低 30%。

那麼叫車成功率的提升、司機時薪的提升,以及用戶出行成本的降低,實際上組成了一個良性循環。當我司機的時薪提升的時候,就會有更多的車主願意來加入這樣一個平台。那麼司機更多,整體的叫車體驗就會變得更好,更多人也會來使用這樣一個出行產品。那麼同時,我的出行成本還變得更低,整個的規模在增加,所以形成這樣一個良性循環的圈。

除了降低空駛率的數據等方面,還能降低擁堵。這個很簡單,一個人坐一輛車,變成了兩個人坐一輛車。在我們上了拼座的城市,可以直接三個人或者四個人坐一輛車,直接減少道路上的車輛。我們現在的絕大多數城市已經不能夠支持我們這麼自私,每個人光是圖自己方便,一個人坐一輛車把整個的城市道路全部擁堵住。拼車不能徹底解決擁堵的問題,但是我們覺得可以減少擁堵的一部分。

最後,拼車其實還創造了一個社交的場景,應該有可能還有一些治癒功能。如果我們想我們每天每個人平均估計花一個小時、一個半小時,甚至更多在路上,那我們堵在路上的時候,一個人坐在車上的時候。拼車如果拼成功了,你會有一個拼友一起跟你坐在車上,這個時候有可能可以創造一些交流的空間,讓整個行程更美好、更愉快。

背後推動拼車這個產品的一個非常關鍵的因素是拼車行程的重疊率。也就是說當兩個不同的行程拼成功了,有多少百分比的路程是兩個人共享的。

在我們試運營的幾個城市裡面,才上線的時候,重疊率已經高達了差不多 70%。最近通過一些演算法的優化等等,已經高達了 75%,那麼重疊率越高,司機的效率也就越高,拼車整體的收益也就越大。通過不斷地完善我們的演算法,做更多的數據挖掘,這個重疊率也是在不斷地提升。

一個完美的拼車行程是什麼?我舉個例子,應該就是說一輛車上面有四個座位,這個時候正好有四批不同的用戶,互相都不認識,他從同一個起點出發,他們要去一個目的地,那這個時候四個人正好拼上了,所以四個人 100% 地共享一輛車、一個行程。

在我們在一批城市上線拼車之後,各個城市之間的反映有非常大的不同。青島、南京、杭州願拼率是最高的,也就是說 100 個快車訂單裡面,到底有多少人選擇了拼車。南京是高達 60% 以上。

而我們怎麼能夠把拼車做得更好,以及滴滴這樣一個出行平台,未來一個發展方向是什麼?其實主要還是通過我們的大數據和我們的技術來驅動。我舉幾個例子,最近一段時間,我們在拼車這個產品上積累的數據越來越多,我們也是通過這樣一個沉澱和技術上的一個突飛猛進,解決了一些拼車這個產品的最基本的問題。

舉第一個例子,在拼車這個產品才上線的時候,一個對於乘客不太好的體驗是,乘客先在車上了,我在路途中要去接另外一個乘客。接上另外一個乘客,發現我反而要掉頭,這個時候對整個的乘客體驗是非常不好的。

明明上車之後,我想往北走,但是這個時候卻匹配了一個去南邊接駕的拼車訂單,所以對乘客的體驗傷害挺大的,儘管有可能這些拼車路線是非常的順路。最近一段時間,我們通過比較詳細的地圖技術服務,獲到了一些特徵,基本解決了拼程掉頭接駕的問題。

第二點,拼車需要優化的問題是,儘管能拼成功的訂單是非常多的,但是拼成功之後,對於兩邊乘客的體驗是什麼樣,特別是第一位乘客,我們能不能夠減少他所損耗的乘客時間。隨著我們業務的增長,可以拼的訂單數量越來越多,我們通過定位問題的特徵,利用機器學習來看能不能夠迅速地匹配。首先第一,能不能匹配上一個可以匹配的訂單。第二是能不能儘可能地減少乘客,特別是第一個乘客的時間損耗,能夠儘快把乘客送到他的目的地。

所以預測,特別是前瞻性的精準預測和智能調度對我們整個的產品形態是非常關鍵的。一個完美的行程,一個完美的拼車行程也好,或者一個完美的普通行程也好,實際上需要非常非常多的對於數據的挖掘,我們來看我們能不能預測現在的路況,我們能不能選擇最適合拼成功的兩個,或者三個,甚至四個不同的行程,在提升效率的同時,又能夠保證用戶的體驗。

現在滴滴已經在 400 多個城市開成,我們也是希望能夠把我們這樣一個技術驅動、體驗驅動的分享經濟模式,來改變每一個城市的出行。拼車是其中一個我們認為可以讓城市出行變得更美好的這樣一個產品。下面我想給大家介紹一下這麼大的一個出行網路到底是怎麼運行的,如何分城市地來運營我們這樣一個出行平台。

從去年下半年開始,我們開車網路就從全國 259 個城市發展到了 400 多個城市,基本上所有的地級市都已經開通了。我們希望達到的一個目標是城城通,同時在很多城市也已經做到盈虧平衡,或者已經開始盈利了。

那麼我們的城市團隊運營方式是什麼呢?有可能跟很多其他的互聯網企業不太一樣的是我們至少在一二線城市,同時在有些三線城市,每一個城市都有自己的小團隊。每一個城市團隊就等同於一個小的創業公司,基於滴滴出行的這樣一個大的平台上。

每一個城市團隊有許可權,也有責任把滴滴快車在所在的城市做到最好,同時不斷地根據當地車時的獨特性和特徵推出各種各樣的創新,讓滴滴快車這樣一個產品在所有城市都達到一個最高的滲透率。所以幾百個城市,我們就有幾百個創新點,這樣一個分散式創新,我覺得能夠給我們帶來最快速的增長和迭代。

所以每一個城市都相當於自己的一個獨立的作戰單位,一個城市有一個總負責人,他是這個城市的總經理,他底下有三個不同的小團隊,運營團隊、市場團隊和體驗團隊。

運營團隊主要把握的是整個存量的用戶和司機的一個活躍度,通過各種各樣的手段和方法,來維護他們的活躍度,提高活躍度。

市場團隊這邊主要負責我們的拉新,以及我們的品牌傳播,通過線上線下的營銷活動,跟類似品牌的合作,以及新媒體的一些運營,來把滴滴快車這個產品,以及這個品牌能夠完全滲透到整個城市裡面去。

第三塊就是體驗團隊,一個司機、一個用戶在滴滴平台上,他到底能夠留存多久,他到底能夠有多活躍,我們認為有一部分是基於他到底體驗是怎麼樣子的。所以我們專門有一個體驗團隊來關注,以及提升滴滴的產品在整個城市的體驗。同時協助這個城市總經理,還有相對應 的HR、PR、GR 和經管等等。

那我們為什麼要這樣做?具體三個原因。第一個是貼近市場。團隊城市化、運營策略城市化、市場活動城市化,特別是在滴滴所做的這樣一個 O2O 行業,其實城市和城市之間還是有很大的不同。比如,成都跟杭州非常不一樣,北京跟深圳也非常不一樣,用戶的習慣不一樣,車主和司機的習慣也不一樣。我們怎麼能夠更好地去服務司機、吸引司機,服務乘客、吸引乘客。

第二個原因就是快速決策。每一個地方都有自己的熱點,每一個地方的競爭情況也不一樣,每個地方也有自己的一些緊急事件,所以當我們每個地方都有一個比較獨立的團隊的時候,他們能夠非常快速地去決策,針對性地來做快速的,並且有效的反映。『

最後一個最主要的原因,我們認為一個中心化的大腦不如幾百個大腦分布在全國。每天,我們每個城市都在做各種各樣的創新和嘗試,各種各樣的 AB test,所以迭代速度會更快。作為一個整體的組織來講,我們的迭代速度更快。

同時,因為是分城市來試錯,所以試錯成本也更低。所以通過這樣一個分散式創新,相對來說比較獨立作戰的一個城市的這樣一個網路,我們才能夠做到今天滴滴在 400 多個城市能夠運營起來,能夠服務好車主,服務好用戶。一個城市、一個城市地改變人們的出行。

本文選自我專欄:滴滴快車運營負責人分享:如何通過數據挖掘發現新出行業務 - MindStore 官方博客 - 知乎專欄 ,獲取更多創業者訪談和大咖精彩分享報道(內容/設計/產品/運營)歡迎關注哦。


日本先進工業技術研究所

在汽車座椅下方安了360個壓力感測器,測量人對椅子施加壓力的方式,研究司機的坐姿,比如身形、姿勢、重量分布等,產生每個乘坐者的精確數據。根據數據來識別乘坐者身份,準確率高達98%。

你肯定問了:這有什麼用啊?仔細想想,三秒後看下一行的答案。

這些數據可以用於汽車防盜系統,如果系統發現數據嚴重不符,就會識別出駕駛者不是車主。你又問了:要是車主的親戚朋友開車也不行?當然可以,如果數據不符,系統就會要求駕駛者輸入密碼,如果輸錯了,車子就會自動熄火。

通訊商與交通路況

你要是開車,平時肯定能聽到交通廣告播報路況信息,也能在地圖APP上看到實時路況信息。

那麼請問:這個信息是怎麼得來的?難道有個天網在全面盯著交通路況嗎?

答案來了:路況不是根據車多少來測算的,而是通過馬路上的手機信號密集程度來測算的。通訊商通過對電塔、無線路由器信號強度進行三角測量,來定位無線路由器所在的地理位置。

Airsage SenseNetworks

這個商業模式腦洞比較大,不得不服。

它出售這樣一些信息,比如:人們周五聚在哪裡、汽車在那個地段行駛、行駛得有多慢等等。

這些數據有什麼用呢?

你想破腦袋都想不到:可以用來確定房地產價值和戶外廣告牌價值。

Watson健康

對1億個病患進行記錄,收集包括電子醫療記錄、醫學影像甚至醫生筆記在內的所有醫療數據,多達150個exabytes。

收集完大數據之後,對2億個記錄進行了脫敏處理,就是去除敏感信息,比如病患姓名、聯繫方式等隱私信息。然後對藥物專利方面進行了4億次註解,收集了4000萬份研究文獻。之後,分析不同病患之間的相似性,了解不同疾病最優化的治療路徑。

IBM物聯網

物聯網跟大數據一樣,也是業內嚷嚷了很久,但是作為消費者,其實沒看見啥具體進展的東西。

剛才說的駕駛座位加感測器,其實就是物聯網的一種類型。除了駕駛座位,車可以不可以聯網?當然可以。家電可以不可以聯網,也可以。當設備互聯,就能夠共享這些信息。

舉個例子,惠爾浦(Whirlpool)在107個國家有上百萬員工,生產洗衣機、洗碗機、電冰箱,惠爾浦做什麼呢?把感測器嵌入到所有產品裡面,了解每個消費者是如何使用他的家電設備的,然後把這些數據反饋到產品設計部門,這樣,產品設計部門設計的產品就是圍繞用戶需求而設計的,而不是為了設計而設計。

Farecast

通過手機機票價格的數據,預測未來機票價格的漲跌,從而給消費者購買時間的建議:什麼時候買便宜,什麼時候買比較貴。後來被微軟以1.1億美元收購。

FICO信用評分系統

利用15個變數來預測單個借貸者是否會償還債務。

歡迎大家關注我的微信公眾號:營銷人手記

註:本文案例來源——

  1. 《大數據時代:生活、工作與思維的大變革》:書不錯,在一堆不說人話的專業化書籍里,算是比較大眾普及型的。
  2. 2017 IBM論壇:主要圍繞IBM Watson在各行業的應用展開的,本文只選了代表性的兩個案例。


我感覺大數據的意義不只是在「數據」,而在於「數據」後的「信息」。

小米手環記錄了你每天的運動、睡眠、健康數據!這些是「數據」。

然而這些數據其實並不是只有自己可見,別人可以通過掃描手環APP里的二維碼來「關愛」你。有人就通過這樣方式,發覺在異地出差的老公,在半夜應該是「睡眠時間」里,卻是「清醒時間」,並且在這個時間區間,實時心率出現異常波動。

這些數據說明了什麼「信息」呢?

老公可能出軌了。其實再深入研究,老婆還可以對比一下這個「心率波動」的持續時間是不是比和自己在一起的時候久。


從第一產業(農林牧漁)、第二產業(工業),到第三產業(零售、服務、互聯網、體育),大數據都有很好的應用(可以關注微信公眾號【數說工作室】更好的了解這方面的資訊)。

excuse me?農業?!畜牧業?!

是的!第三產業的例子太多了,第二產業也不少,現在德國不是在搞工業4.0嘛,我今天就舉2個第一產業的例子:

提綱:

1. Farmeron:農場主的數據分析工具

(1)技術與成效

(2)團隊與運營

2. 德強農場—國產大數據農場!

(1)技術與成效

(2)團隊與運營

3. 「十三五規劃」中的農業大數據

——————————————————分割線——————————————————

1. Farmeron:農場主的數據分析工具

Farmeron 是一家農業數據跟蹤分析服務公司,利用該公司發開的分析工具包,農民可以記錄和跟蹤自己飼養的動物的數據,科學制定生產計劃。

(1)技術與成效

Farmeron開發的分析工具包,類似於網站分析工具Google Analytics:通過其基於網頁的應用,農場主可以追蹤家畜的飼養與生活狀況,包括:飼料庫存、消耗和花費,每頭動物的出生、死亡、產奶等信息,還有農場的收支信息。

就像我們在微博上有個主頁一樣,每個動物也都有一個自己的頁面,這可以讓農場主不僅看到整個農場的表現,還可以看到每一隻動物的情況。

凡德冉·博格達諾維科是一位獸醫,他在克羅埃西亞Kapelna管理著一個擁有近400隻牛的奶牛場,他表示,Farmeron幫助他滿足了動物信息追蹤和銷售方面的需求,還有助於及時向保險公司彙報牲畜死亡情況。

博格達諾維科還用Farmeron管理日常飼料配給及飼料採購,並不斷進行微調,這相當重要,因為飼料成本佔到了他這個奶牛場總成本的70%。

博格達諾維科表示,

只要能省一點錢,我們都努力去省......我經常能夠看到飼料中某個成分不符合計劃,從而可以迅速作出反應。

(2)團隊與運營

Farmeron軟體2011年11月發布後,迅速簽下了幾家大型歐洲客戶,目前已有超過600家企業化農場使用該產品,其中45%都位於北美,最大的一家擁有4,000頭牲畜。

2012年5月,Farmeron又與在30多個國家開展業務的大型德國設備商Neelsen Agrar達成協議,由後者向客戶銷售Farmeron軟體。

該公司在Osijek設有十名員工組成的技術開發團隊,在美國則有兩名員工組成的銷售團隊。

2. 德強農場—國產大數據農場!

按照我的習慣,一定要說一個中國人自己的項目。位於山東德州的德強農場,是一家利用大數據技術指導農作物生產的農業科技公司。2013年5月8日,公司創始人馮樹強在山東省德州市陵縣註冊成立了德強農場,主要從事糧食作物種植。2014年1月,馮樹強召開設立大會,聯合142戶農民發起了德強農場作物種植專業合作社。2014年7月,李克強總理親自到訪並深入考察。

(1)技術與成效

農場將一系列作業全部用物聯網記錄,並通過自主開發的軟體,進行大數據分析,為耕種、收穫等作業計算出最佳人力、物力配給,從而降低成本投入,實現效益最大化,智能農業監控操縱模塊主要包括:

  • 自動化節水灌溉:對泵站壓力、流量等數據的實時監控和自動化控制以及泵站內部的安全監控。

  • 科學化調度:根據系統採集的供水流量、耗電量等信息,實現科學調度,可減少水資源及電力資源的浪費。

  • 信息化管理:結合管理要求及業務開發應用軟體,利用計算機網路等現代化管理手段,提供數字化的決策依據,提高管理水平和效率。

  • 安全化生產:利用圖像處理技術能夠全面實時監視所有泵站、時針式灌溉區的人員、現場情況,通過處理器對所有的攝像點圖像進行處理,並可實現單幅或多幅畫面錄像回放,方便圖像查詢,監控重要場所,方便現場監視,對所有設置全方位攝像機的監視點能夠快速、便捷地手動捕捉移動目標或自動巡視。

(德強農場的智能農業監控操縱平台)

(2)團隊與運營

德強農場與北京市農科院、德州市農科院建立了合作關係,常年聘請了5名農業和水利方面的技術專家、建立了10人的技術員隊伍,固定員工20人,在忙農季節再聘用當地農民來務工。

對於10000餘畝土地,德強農場實行統一經營,415個社員戶入社耕地面積5100畝,600多個帶動戶耕地6900畝。農場主馮樹強本人時而在北京CBD,時而在山東的田野里。在北京,他和他的團隊是出入CBD商圈的IT白領,在山東,他們是德州的新農民。

3. 「十三五規劃」中的農業大數據

「十三五」規劃中,有一個農業現代化、還有一個國家大數據戰略——怎麼著?農業大數據是兩個十三五規劃的疊加啊!

參考資料:

1. Farmeron:農場主的數據分析網站--數說工作室

2. 德強農場—一家國內大數據農場--數說工作室

3. 中共中央「十三五」建議大力推進農業現代化--財經--人民網

4. 「十三五」規劃綱要:實施國家大數據戰略--鳳凰財經


大數據是除了雲計算之外被吹的最厲害的概念了。

但是宇宙是離散的。過去不能預測未來。大數據事實上沒有多大用處。

牛頓愛因斯坦認為宇宙可以用經典物理學的方式最終計算出其規律,但是實際上是錯誤的。宇宙是量子式的,一粒光子進入太陽系,這個太陽系都會受到影響,實際上是無法計算的。

所以,不要在大數據上花費太多功夫,它遠遠沒有現在炒作的影響力那麼大的價值。


本來只是憑著聽課的印象信手寫了幾句,沒想到水大讚了……馬上補充。

因為我不太會總結,也沒有系統研究過,挑著講些有趣的例子也算切題啦。評論里有說,內容全部來自《大數據時代》 (維克托·邁爾·舍恩伯格)一書。

1.莫里的導航圖,大數據的最早實踐之一

馬修·方丹·莫里(Matthew
Fontaine Maury,1806-1873年)是一位很有前途的美國海軍軍官。因為一次意外事故,他的腿留下了殘疾,無法再在海上工作。美國海軍就把他安排進了辦公室,並任命他為圖表和儀器廠的負責人。在過去,航海家都是通過口口相傳的經驗來判斷走哪些熟悉的海路,但是莫里想繪製一幅新的航海地圖揭開大海的神秘面紗。

他所依賴的資料中除了一些陳舊的航海書籍、地圖和圖表;還有塞滿了舊日誌的發霉木箱,這些都是以前的海軍上尉寫的航海日誌,包括對特定日期、特定地點的風、水和天氣等情況的記錄。大家不要受海賊王蠱惑覺得海上都是喝酒唱歌航海士都長得像娜美一樣,真正的航海生活都是很枯燥的,船員們都是些無聊的寂寞大叔,他們的日誌只是航海途中打發時間的業餘娛樂而已,頁面上儘是奇怪的打油詩和亂七八糟的信手塗鴉。

就是從這樣「大量冗餘非結構化」的數據中,莫里和他的20台「人肉計算機」,整理出了一份航海地圖,他把整個大西洋按經緯度劃分成了五塊,並按月份標出了溫度、風速和風向,就這樣提供了有效的航海路線。再後來為了獲取更多數據,莫里創建了一個標準的表格來記錄航海數據,要求美國所有的海軍艦艇在海上使用,返航後再提交表格,後來包括一些商船也加入了其中。航海路線圖就能不斷得到完善。

1855年,莫里的權威著作《關於海洋的物理地理學》(The Physical Geography of the Sea)出版,當時他已經繪製了120萬數據點了。在這些圖表的幫助下,年輕的海員們不用再親自去探索,而能夠通過這些圖表立即得到來自成千上萬名經驗豐富的航海家的指導。

那個時代沒有計算機沒有互聯網,只有最早的大數據思維的萌芽。

2.日本先進工業技術研究所的坐姿研究與汽車防盜系統

日本先進工業技術研究所的教授越水重臣所做的研究是關於人的坐姿。當一個人坐著的時候,他的身形、姿勢和重量分布都可以量化和數據化。越水重臣和他的工程師團隊通過在汽車座椅下部安裝總共360個壓力感測器以測量人對椅子施加壓力的方式。把人體屁股特徵轉化成了數據,並且用從0~256這個數值範圍對其進行量化,這樣就會產生獨屬於每個乘坐者的精確數據資料。在這個實驗中,這個系統能根據人體對座位的壓力差異識別出乘坐者的身份,準確率高達98%。

這項技術可以作為汽車防盜系統安裝在汽車上。有了這個系統之後,汽車就能識別出駕駛者是不是車主;如果不是,系統就會要求司機輸入密碼;如果司機無法準確輸入密碼,汽車就會自動熄火。接下來的研究就有更多的可能性啦,比方說,我們可以利用事故發生之前的姿勢變化情況,分析出坐姿和行駛安全之間的關係。或者在司機疲勞駕駛的時候發出警示或者自動剎車,或者通過收集到的數據識別出盜賊的身份。

或者逗比點,通過副駕駛位置判斷車主有沒有出軌過?……

3.飛機票價預測http://forecast.com

2003年,計算機專家奧倫·埃齊奧尼(Oren Et z i on i)準備乘坐從西雅圖到洛杉磯的飛機去參加弟弟的婚禮。他知道飛機票越早預訂越便宜,於是提前幾個月就在網上預訂了去洛杉磯的機票。在飛機上,埃齊奧尼好奇地問鄰座的乘客花了多少錢購買機票。當得知雖然那個人的機票比他買得更晚,但是票價卻比他便宜得多時,他非常氣憤。

埃齊奧尼下定決心要開發一個系統,分析所有特定航線機票的銷售價格並確定票價與提前購買天數的關係。如果一張機票的平均價格呈下降趨勢,系統就會幫助用戶做出稍後再購票的明智選擇。反過來,如果一張機票的平均價格呈上漲趨勢,系統就會提醒用戶立刻購買該機票。

埃齊奧尼創立了一個預測系統,它幫助虛擬的乘客節省了很多錢。這個預測系統建立在41天之內的12000個價格樣本基礎之上,這些數據都是從一個旅遊網站上爬取過來的。這個預測系統並不說明原因,只推測會發生什麼,只是利用其他航班的數據來預測未來機票價格的走勢。「買還是不買,這是一個問題。」埃齊奧尼給這個研究項目取了一個非常貼切的名字,叫「哈姆雷特」。噢……他的公司名叫forecast,大概讓航空業損失了數百萬潛在收入。

這個故事告訴我們,沒事不要去惹程序員……

2008年,埃齊奧尼計劃將這項技術應用到其他領域,比如賓館預訂、二手車購買等。但是在他實現計劃之前,微軟公司找上了他並以1.1億美元的價格收購了Forecast公司。而後,這個系統被併入必應搜索引擎。

4.美國折扣零售商塔吉特與懷孕預測

某一天,一個男人衝進了一家位於明尼阿波利斯市郊的塔吉特商店,要求經理出來見他。他氣憤地說:「我女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優惠券,你們是在鼓勵她懷孕嗎?」而當幾天後,經理打電話向這個男人致歉時,這個男人的語氣變得平和起來。他說:「我跟我的女兒談過了,她的預產期是8月份,是我完全沒有意識到這個事情的發生,應該說抱歉的人是我。」

這就是 @張亮-Leo♂ 提到的那個真實的段子。塔吉特在孕婦父親都不知情的情況下準確預測出了一個女性的懷孕情況。他們收集每個顧客可以收集到的所有數據,然後通過相關關係分析得出事情的真實狀況。具體做法是首先查看簽署嬰兒禮物登記簿的女性的消費記錄。登記簿上的婦女會在懷孕大概第三個月的時候買很多無香乳液。幾個月之後,她們會買一些營養品,比如鎂、鈣、鋅。公司最終找出了大概20多種關聯物,這些關聯物可以給顧客進行「懷孕趨勢」評分。這些相關關係甚至使得零售商能夠比較準確地預測預產期,這樣就能夠在孕期的每個階段給客戶寄送相應的優惠券。懷孕是一對夫妻改變消費觀念的開始,他們會開始光顧以前不會去的商店,漸漸對新的品牌建立忠誠。所以對零售商來說這個預測很有意義。

5.terrorists(好像就是這個詞過不了審核!)預測

我們經常聽說某地區的警務人員通過對一些特定事件的檢測預防犯罪從而顯著降低犯罪率。而美國國土安全部正在研發一套名為未來行為檢測科技(Future Attribute Screening Technology,簡稱FAST)的安全系統,通過監控個人的生命體征、肢體語言和其他生理模式,發現潛在的terrorists。研究者認為,通過監控人類的行為可以發現他們的不良意圖。美國國土安全部聲稱,在研究測試中,系統檢測的準確度可以達到70%。(測試方法並不可知,難道是要志願者假扮terrorists,然後看看系統是否能發現他們的不良意圖嗎?)

該研究還處於早期階段,如果成功,以往的預測whenwhere會發生犯罪就直接精準到了預測誰會犯罪的程度。當然這個項目完成之後可能會引起關於犯罪傾向如何懲罰的爭論。


在服務行業比如:律師行業。我們合作的美國最大的律師平台網站用大數據實現了全美國律師信息的採集。


舉一個大數據賦能傳統阿里商家雙11的例子:

周黑鴨這類熟食類產品保質期短,對存儲溫度和運輸環節要求較高. 如果備貨太多,商品容易過期,如果備貨太少,又影響客戶體驗和收入.

傳統備貨方式主要依靠經驗,幾百盒甚至上千盒產品報廢的情況經常發生.通過阿里大數據產品阿里生意參謀,可以實時監控店鋪商品被加入購物車的數量明細,通過歷史購買情況,加上實時情況,構建精準銷量預測模型.2015年雙11期間,阿里大數據平台預測大促銷售額為2000萬,與實際銷售額2150萬高度吻合.大促7天內,2000多萬商品全部發貨完畢,沒有出現任何因定量不精準而導致的產品過期問題.

大數據賦能新零售 -- 數據服務於線上線下,預測趨勢,有備無患,未雨綢繆

預測模型可應用於備貨,新品挖掘/品類擴充,預測流行和趨勢形成

優化供應流程 短保商品不用再愁備貨失誤

優秀的商品補單,良好的款繼續保持,中等和差的款儘快打折和去庫存

小爆款來增加人氣的運營策略

緊盯數據變化,經過持續觀察市場動態, 並抓住變化提前布局,抓住市場趨勢借力打力

吃小龍蝦的話,你也會注意到周黑鴨小龍蝦上市3個月悄然下架的新聞, 影響銷售的因素很多,價格定位,營銷場景,人群定位,競品等等都是銷售預測需要關注的因素. 線下遠比線上複雜,部分因素挖掘出的結果不能絕對意義上替代領導者行業市場敏感度.最終需要領導者最終拍板. 同時領導輸出自己的經驗給BI團隊持續迭代優化預測模型.

附相關資訊:

1.利用大數據,「三隻松鼠」們是如何創造一個個銷售奇蹟的?

2.基於機器學習方法對銷售預測的研究

3.阿里新零售報告PPT

阿里新零售人貨場的重構就是數據賦能新商業最好的案例


1.金融,銀行業:銀行的資金交易平台,頭寸管理等,都是基於大數據的,資金拆借,資金分配,風控加權等等。

2.電商企業:淘寶,亞馬遜,京東等,根據建模做到細化分配與調整,趨勢預測等等。

3.基金證券類。比如餘額寶,在吸儲之後,怎麼合理利用,包括多少存銀行協議存款,多少投資基金等,在電商活動時或者促銷時,就要計算資金流出,包括支付寶轉出和支付寶賬戶間流轉。將資金收益最大化,同時也要降低資金成本。

4.大數據在政府機關內的應用包括,輿情分析等。

其實,在很多領域已經有大數據的雛形。普及商用還需要一定時間。大數據早在20年前就已經提出。重要的是一種大數據思維模式。


商業上。比如電子商務里的亞馬遜,視頻行業的Netflix等

國家治理上的各種數據分析,比如gdp、gnp、cpi、ppi、pmi、m1、m2、Inflation Rate、恩格爾係數、人口統計等等

金融上的風險管理,比如阿里金融、做得不錯的p2p代表等。

總之,大數據要求要有海量數據的設計、收集、分析、結論以及取得相應的趨勢或對策的過程。


智慧城市。

1 大數據能否告訴我城市哪裡最涼快?

2 大數據能否告訴我城市哪裡犯罪率最高?

3 大數據能否治理城市交通擁堵之困境?

4 大數據能否真正反應每個人對城市空間的需求特徵?

5 大數據能否預測城市的發展方向和模式?

6 大數據能否讓我們獲取比傳統統計數據更準確真實的數據?

7 大數據能幫我做規劃方案么,堵住甲方和領導沒玩沒了的修改意見?

8 大數據能否告訴我城市中人流量最大的地方在哪?

9 大數據能否告訴我城市哪裡人口密度最高?

10 大數據能否告訴我城市哪個地段人流量最大?

11 大數據能否告訴我城市哪個角落去的人最少?

12 大數據能否告訴我垃圾桶如何分布才能不讓垃圾落地?

13 大數據能否告訴我城市夜晚哪裡最亮?

14 大數據能否告訴我城市哪裡人們的活動強度最大?

15 大數據能否告訴我蘋果手機和安卓手機用戶都分布在哪裡?

16 大數據能否告訴我春節人口大遷徙的軌跡與特徵?

17 大數據能否告訴我城市哪裡空氣質量最好?

18 大數據能否告訴城市哪裡房租最便宜環境又好?

19 大數據能否告訴我城市哪裡美女最多?

20 大數據能否幫我找到匹配我的女朋友?

21 2014年世界盃馬上開始了,大數據能像上屆世界盃的「章魚帝」一樣分析出每場比賽哪只球隊獲勝么?

22 大數據能否幫我減肥?

23 大數據能否告訴我今年五一去哪玩人最少?

24 大數據能否告訴我今年國慶哪條出行路線最通暢?

25 大數據能否幫我找到最好吃的火鍋店在哪?

26 大數據能否告訴我是否需要開始預防流感了?

27 大數據能否幫助我發現適合運動的戶外場所?

28 大數據能否幫助我選擇最快最不堵車的交通路徑?

29 大數據能否幫我找到我丟失的狗狗?

30 大數據能否讓孩子不再被偷?


大數據已經是時代的必然趨勢,很多行業都在走向「大數據」,與生活密切相關的像:GPS地圖導航。


1、首先谷歌運用上億的搜索詞條預測流感的發生就是大數據的一個典型應用;

2、再者有網上的象棋遊戲,也是基於事先輸入系統的大量的各種可能的走法,系統才能在短時間 內根據你的走法作出最好的應對措施;

3、再者有喬布斯的癌症治療,是世界上第一個對自身所有DNA和腫瘤DNA進行排序的人,付出高 額 費用得到了包括整個基因密碼的數據文檔,他笑言:「我要麼是第一個通過這種方式戰勝癌症的 人,要麼就是最後一個因為這種方式死於癌症的人」,雖然他的願望都沒有實現,但是這種獲得所 有數據而不僅是樣本的方法還是將他的生命延長了好幾年;

4、Lytro相機,它把大數據運用到了基本的攝影中,Lytro相機可以記錄整個光場里所有的光,達到

1100萬束之多,用戶沒必要一開始就聚焦,可以在拍攝之後根據需要再選擇聚焦圖像中的任一點

5、谷歌翻譯系統,擁有上萬億的語料庫,涵蓋了60多種語言,能夠接受十幾種語言的語音輸入,並有很流利的對等翻譯

。。。

大數據時代已經崛起,世界的本質就是數據,大數據時代的經濟學、政治學、社會學等許多學科都會發生巨大的本質上的革新和發展,將會影響人類的價值體系,知識體系,以及生活的方方面面


推薦閱讀:

在美國生活,有哪些必不可少的 App?
小米在前期是如何積累用戶的?
怎樣監控移動互聯網廣告的效果?
作為一個產品經理,要做的產品和老闆的想法不一樣,你會怎麼做?
新浪微博上最值得你關注的幾個人是誰?為什麼?

TAG:互聯網 | 移動互聯網 | 體育 | 商業 | 大數據 |