矽谷的數據專家是如何看待大數據的
本文來自於LinkedIn Sr. Director 李玥回國期間的由壹佰案例所做的一個微型訪談。他是矽谷商業分析和數據科學領域的資深領袖。他熱衷於用他多年積累的精準商業嗅覺和卓越分析技能來解決複雜的商業問題。他是在大數據理念上的宣傳員和實踐者,現在工作的重點在於定義大數據對商業的意義以及如何利用大數據去創造商業價值。
一、大數據發展的6個層面
一般大家講大數據還是以數據量為主,就是認為「大數據是很大很大的數據」。實際上我們可以把大數據分成兩個維度:1、傳統意義講的Y軸維度:數據量的大和小;2、X軸上的維度:數據處理分析的難度和挑戰性。光有了數據還不叫大數據,實實在在地把大數據應用起來,在這個應用過程中所產生的處理分析的難度和挑戰性是更應該考慮的,尤其是在本身工作中應用大數據的時候。
這個圖是兩個軸為坐標,從左下角開始:第一層是財務數據。財務公司是第一批應用大數據的公司,90年代初開始,美國基本上所有的金融公司都在廣泛地利用金融數據來讓自己的業務不斷增值。我的第一份工作是在第一資本這家公司,它現在是全美第四大信用卡公司。它最著名的是以數據分析的方式,從財務數據中挖掘出對業務增值的策略和運營。其實第一資本和幾家傳統的金融公司比起來,它的歷史會短很多,成為後起之秀殺出血路就是因為它的數據的理解和分析做得非常好,所以它能在這個市場找到自己的位置。
當時第一資本做得最好的一件事情,是從信用分數比較差的人群中找出信用相對好的人群並發給他們信用卡,而一般的信用卡公司不給這個人群發信用卡,所以競爭小很多。通過數據分析找出競爭對手沒挖掘的市場,這是第一資本最早成功的一個原因。在同一時期,華爾街也有很多公司開始用財務數據做大量的工作,尤其是在股票交易方面,做對沖模型、統計模型,製造了大量的財富。數據應用從財務開始,這是最自然的,因為最早應用大數據的還是跟錢最直接相關的地方。
第二層是CRM數據,即客戶關係管理數據。客戶管理數據比財務數據大得多,因為得跟客戶之間多次交流才產生交易,所以數據量在進一步增大,分析難度和挑戰性也在進一步增大。
第三層是矽谷最早一批IT領域的創業企業,包括Google、Yahoo、eBay等。與傳統公司不同的是它們以其網站為主要業務,網站的數據都存儲在網路日誌里,這個數據比前面的數據都更龐大,很多人每天都可以去訪問這個網站,在這個網站上做各種活動留下各種用戶的行為。這些數據都積累起來就變成了一個非常有挑戰性的事情,包括對它的處理和分析都是一些網站成功的重要原因。
第四層是所謂的社交網路,這些公司的出現是在2010年初期,LinkedIn、Facebook等,社交網路公司的出現導致數據量大幅增長。比如LinkedIn平台上有超過4億人,這4億人中每兩個人之間理論上都可以產生關係,發信息、看檔案,而這些可能產生的關係都會以數據的形式保存下來,這樣數據量的增長就變得非常非常巨大。
大數據這個詞和社交網路公司的出現同時被喊出來,因為傳統的交互型的資料庫已經無法存儲如此大量的數據了,大家可能比較熟悉的傳統資料庫有oracle或者更古老的一些關聯性資料庫。那怎麼辦呢?數據存儲變成了一個最大的挑戰性的問題,這個時候Hadoop開始出現,大家開始採用Hadoop這種相對經濟的存儲方式來處理大量的數據。但Hadoop解決的更多的是數據存儲的問題,而把數據儲存在Hadoop之上,分析和處理的難度和挑戰性大大地增加了,直到今天還有很多的創業企業還在做相關的技術。
第五層是最新型的或者說當紅的創業企業,比如Uber、滴滴、Airbnb、WeChat、Snapchat等,它們可以劃分到共享經濟、物聯網和實時通訊這些行業裡面去。它們的數據量進一步增大,數據處理分析的難度和挑戰性也在進一步增強。一個很重要的特點是對數據實時性處理的要求程度越來越高了。大家可以想像,就是說在你用優步或者滴滴的時候,它實際上是在接近實時的情況下匹配用車的人和提供駕車服務的司機,很短時間內幫這兩者建立聯繫,這裡數據處理的速度起到了非常重要的作用。剛剛說到的這些分享經濟、物聯網、實時通訊相關的公司實際上也是第一次在歷史上真正大規模地把人實際的相關行為的數據記錄下來。
在此之前比如LinkedIn、Facebook、微信、朋友圈,其實很多時候是可以在社交網路上創造出一個虛擬的自己。而Uber、滴滴、Airbnb的相關數據是人的實際行為,比如說我實際的出行,這個是不可以造假也不可以虛擬的,這是第一次大規模地把人類的實際的生活記錄下來,這個趨勢是不可逆轉的,我覺得以後越來越多的生活當中相關的行為、事情等都會以數據方式存儲下來,所以數據量在迅速的膨脹,同時對它們的處理跟分析的難度也會不斷增加。
最後一層是更新型的創業企業,比如大健康、環境科學相關、教育相關或娛樂相關的這些初創企業,當它們做出規模的時候,它們的數據量肯定會進一步增大,同時相關的處理和分析的難度也在進一步增加。我說這些的目的是什麼呢?
大數據這個詞從開始發明到現在都沒有明確的定義,從我們的角度來講每一波創業的新型公司的出現都會帶來一種新的大數據的產生和存儲的方式,每一波新型公司的出現引領了一個新的大數據產生積累和變現的過程,希望大家在創業、職業發展時從這個角度想想,有沒有在大數據進步的過程中跟上時代的節奏。
二、大數據的4個技術維度
如上圖所示,是大數據本身的三個基本技術維度。第一個V是volume即容量:到底這個數據的大小是Terabytes還是Megabytes、有多少條數據記錄、多少個數據表格和數據文件。這是容量。
第二個V是velocity即速度:對數據處理的速度,這個V的重要性變得越來越重要,因為現在生活方式和生活節奏都越來越快。
第三個V是variety即數據的多樣性,這個大家平時考慮得相對少一些,我們平時所說的數據很多時候是數字,但是數字並不是數據的唯一形式,現在越來越多的我們稱之為非結構化的數據,比如說文本、語音、圖像、錄像,所有這些實際上只要是以數據化的方式存儲下來的都是數據,對他們相關的分析也為大數據本身的處理帶來更多的挑戰。
任何一個公司把大數據這三個V都做得很好、做到極致是不可能的,也是不必要的。最重要的是第四個V,value即價值,怎樣利用大數據實實在在地為業務為公司帶來價值。這是我們一個數據科學團隊或者一個分析團隊應該做的事情。
大家可能對數據分析不是很了解,這個圖講的就是數據分析的重要性以及它在企業成長過程中起的作用。這個環的核心是任何一個業務起步的時候都有一個自己核心的業務平台,在這個平台上第一步要做的就是客戶和業務的增長。任何一個初創公司第一件事都是要有一個經濟模式,在這個經濟模式上不斷成長自己的客戶和業務,找到一個對的經濟模式和正確的增長模式。
在業務和客戶的增長過程中會不斷積累收集數據,當數據積累到一定程度並真正可以從裡面挖掘出有用信息的時候,就可以用數據分析的方式來不斷找出符合客戶需求的增值產品和服務,把這些增值產品服務做到平台當中去,這樣的話就可以進一步幫助客戶和業務的增長。
數據分析在企業成長的過程中起到優化促進不斷增長的作用,和企業的業務是息息相關的。在最開始沒有很多數據的時候要找對業務模式,這是一個初創企業最開始要做的最核心的事情。
三、商業分析團隊
5年前,我們這個團隊在LinkedIn建立,我們的目標如圖中所說,總結起來就是:我們要做可以創造商業價值的數據科學。當時數據科學本身的定義有很大的爭議,但是不管數據科學本身的定義是什麼,我們這個團隊最大的目的是要真正把數據和業務結合起來,創造更多的商業價值。從組織架構的角度來講,我們認為分析師和數據科學家是處於業務部門和技術部門之間的一個團隊。業務部門,顧名思義他們所承擔的最大任務是在業務上的收益和指標;技術部門負責的是這個平台的穩定性,把這個產品研發出來,所以他們的任務更多的是把工程方面的工作做好。而分析師和數據科學家在兩者之間,既要懂業務又要懂技術,用最好的技術和產生的相關數據的分析來幫助業務部門不斷地增加業務上的價值。
圖中是在Google上對「big data」這個詞的搜索量,在2011年之前的它是很平的一條線。2011年之後,對「big data」的搜索在Google上開始了指數性的增長,這說明了兩點問題:1、大家對大數據的認識在不斷提高,還是非常迅速的提高;2、也說明了相關人才的匱乏,這是一個暫時無法解決的問題。四、商業分析師需要具備的三大方面的技能
分析師需要具備的技能有哪些呢?總結起來有三個大的方面:
1、有簡單的編程和數據產品開發的技術。這樣的話你自己做數據產品的時候,能夠不依賴於其他的團隊,自己就可以開發。
2、有統計及數學知識背景。在這麼多的數據里挖出點兒有用的信息,統計和數學知識的積累對分析師是非常關鍵很重要的。
3、有業務的專項知識和商業的心態。你對業務本身有很好的了解,同時用商業的心態去想如何把技術跟數據結合起來不斷地推動業務的發展。
同時具備這三點的才是商業分析需要的人才,這樣的人相對比較少,但我們希望能夠把大家都培養成全能的人才。
五、商業分析進化論:從數據到價值實現
從商業分析的進化論說,我們如何做到從數據到價值實現。可以放到兩個維度上來,Y軸是商業上的回報,x軸是我們整個商業分析進化的過程。數據。第一步要把數據做好,包括數據的存儲、數據的整理、數據的清潔、數據的整合。第一步非常重要,雖然在商業回報方面並沒有很高的直接的商業回報,但這是後面幾步的一個非常重要的基石。
信息和知識。數據本身確實不直接帶來商業回報,所以我們要進入第二步從裡面挖掘信息和知識。數據告訴你發生了什麼,信息跟知識能告訴你為什麼這個事情會發生,這個時候從商業角度來講的回報有了進一步的增加。
預測。通過對歷史的學習、對歷史數據和業務的理解我們可以去預測,預測將會發生什麼。當能夠預測什麼將會發生的時候,商業回報會有進一步的增加。
洞察。這個也是我們分析師認為能達到最好的一個對數據的應用:從裡面挖掘出來洞察戰略。我們可以幫助角色部門建立最好的商業決策,而這個最好的商業決策能夠給公司帶來最好的商業回報。
商業價值實現。但是後來我們發現一個更大的問題:最後的商業價值實現在很大程度上要花掉我們很多的時間和精力,去推送數據的思維和數據運營的思路,只有這樣才能真正的把數據的價值體現出來並達到最高的商業回報。
我們在工作中發現其實用最好的技術、最好的演算法、最好的數據科學,可能最後並不能真正帶來商業回報,而跟業務部門結合起來給大家更好的推動數據思維的方法、建立數據運營的思路,是一個長期的也是一個逐漸見效的過程,這才是商業價值真正能夠得到最大化體驗的過程。
我們管這個叫商業分析的進化論:一步一步從數據到價值實現的過程,而這也是商業回報不斷得到提升的過程。我們團隊內部更多要做的事情是:如何表明我們做的事情是對公司的價值推動的直接的方式。我們用一個EOI的分析架構,具體展現我們所做的工作給公司帶來的價值。
六、EOI分析架構
E是empower即助力,這是一個商業分析團隊的核心任務,他要做的事情就是助力公司所有的人在任何時候能拿到他們需要的數據跟洞察,這是整個分析團隊最核心的任務也是最先要完成的事情。
O是Optimize即優化,當你對數據跟業務都有了很好的了解,你就可以去幫助業務部門,怎樣利用數據和數據的挖掘優化業務的表現,讓你的工作跟業務部門的表現和業務能夠直接掛起鉤來,我們認為這是一個戰略性的任務,在你把核心任務做好的基礎上做出對公司具有戰略性意義的事情。
I是innovate即創新,我們管這個叫風險任務,並不是說風險很大而是說應該有創新意識,這個是分析團隊或數據團隊非常重要的一點。
整個公司里真正對業務跟技術都非常了解的是數據分析團隊,能夠用創新的方式用分析和數據來給業務的成長帶來推動力。他們的創新精神能夠不斷地把我們的價值體現和影響力提高到新的高度。
我寫了一篇關於分析架構EOI推動商業價值的文章,有興趣可以看看。文章後來被翻譯成中文發表在創業家雜誌上,在網上就可以搜到,翻譯成中文以後叫《LinkedIn的大數據新玩法》。七、EOI分析架構舉例
助力舉例:人才流動畫板。
優化舉例:用戶傾向的一個預測模型,是跟營銷部門一起合作的一個項目。
創新舉例:和銷售、營銷部門做的一個大客戶興趣指數,把所有的公司、企業進行排序,讓我們的銷售部門、營銷部門更有的放矢地去和潛在客戶進行合作,實實在在地給大家帶來價值,讓更多的公司和大客戶變成LinkedIn的客戶。
這是我對數據的理解、數據對公司的作用、長期數據怎樣以資本的形式幫助公司不斷的增長。最後是問答環節。
Q:都說大數據掘金,為什麼目前看到最多的是電商和互聯網廣告能從大數據里掙到錢,其他行業卻很少,您覺得深層次的原因是什麼?
A:我覺得這個命題本身就不是很正確,不是只有廣告和電商行業在大數據中賺到錢,LinkedIn就是一個很好的例子。廣告營收只佔LinkedIn業務營收的百分之二十到三十左右,其他的是這個平台以用戶為基礎做的一些B2B的產品所帶來的。而且我覺得新型的行業出來之後,越來越多的企業賺錢的方式和電商廣告不一樣。
為什麼電商廣告從大數據中賺到更多錢,是因為他們跟錢離得更近,電商是賣產品的、廣告是做銷售的,它們跟錢離得更近,所以變現也相對更容易。
目前普遍對大數據的應用還處於一個比較淺的層次,當對大數據有了更多的了解,能從裡面挖掘到金礦的機會更大。當然如果廣告業務能在營收上有幫助的話應該肯定地去做。鼓勵大家不斷地開闊思路去想怎樣用更好的方式從數據中挖掘出更多的信息和價值,通過數據分析找出符合用戶需求的增值產品和服務,把這些增值產品和服務做到你的業務模式里去,這是可以讓業務不斷壯大的一個方式。
Q:三大技能基礎里有關簡單編程的要求可以說的再詳細一點嗎?
A:簡單編程更多是指腳本語言,Python和R都屬於簡單編程的範圍之內,並不是很難的編程語言,這些編程技術能數據分析師很好很快的去把這個數據產品的雛形做出來,讓他整個工作效率大幅度的提高。
這就是簡單的編程技術,我更希望分析師有一個商業驅動的頭腦,而在技術上找出能解決他想解決的問題的技術就可以了,而不是在技術上追求精益求精,這是分析師和工程師一個核心的區別。
Q:在傳統金融行業,目前數據分析作用於信用風險分析,比如信用風險評級、信用卡客戶識別等,能否介紹下數據分析在其他領悟的應用場景。
A:其實我剛剛在講大數據的時候已經涉及了一些應用方式,比如在電商上,按照一層層來的話在電商領域大數據就已經應用到各個方面了。比如說從最開始的獲取客戶,其實在線電商平台是通過SEO、SEM等拉到的流量,怎麼用更經濟有效的方式獲取流量,都是數據分析相關的起的作用。
當通過各種手段把人變成了你的用戶之後,對用戶本身行為的分析、用戶生命長度的價值、用戶本身的好壞程度、比如說在電商平台上一個賣家到底是好的賣家還是中的賣家還是差的賣家、一個買家他購買行為是好還是不好、應該給他們什麼政策、所有這些實際都是與數據分析息息相關的。再有對風險和欺詐行為的控制,比如有的人可能會用盜用的信用卡、會註冊假冒的賬戶、有的人會賣假貨,所有這些都是數據分析可以起作用的地方。
在eBay分析師是非常大的一個團隊,包括螞蟻金服的分析團隊都非常龐大,還有很大的一支精英團隊幫助他們把各個方面的風險控制好,獲取用戶的保留風險的控制,包括長期用戶的價值管理,方方面面都是有數據的驅動方式把它管理起來。
剛才用一個電商的例子來講,我的感覺是以後這個世界會逐漸變得越來越數字化,所有人的行為、各種各樣產品的相關屬性都會以數字的方式存儲下來,所以數據分析是無處不在的,在你的業務裡面任何很小的一個環節你都應該去想怎麼用數據方式把它做得更好,不斷地去優化或者自動化,不斷提高效率跟生產力,這是一個循序漸進但是不可逆轉的過程。
Q:已經獲取的數據如何能更好的進行互相驗證盡量確保數據的正確性?
A:這個問題是普遍的,初創或成型的公司都面臨,而且很容易被忽略。數據的質量,在根本層次上決定了數據的應用能不能為業務帶來好的價值。
數據質量問題的解決沒有一個一勞永逸的方式,數據分析師團隊既要懂數據又要懂業務才能真正的提高數據質量。舉個例子,比如你有一個電商平台,你想知道每天有多少個交易在平台發生,一個好的分析師會對這個平台上每天的交易瞭若指掌,如果每天的交易額大概是一千萬人民幣、一萬個交易,如果第二天突然發現交易額變成了十萬、交易量只有五百個,第一時間就能判斷這個數據是不可能準確的。
這些所謂的常識是在長期的經驗中積累下來的,對每個業務、每個公司來講,如何對數據進行更好的驗證也是一個不斷漸進的過程。分析師對數據和業務的關鍵指標的理解程度非常之高,所以他們可以做出來一些規則,比如說一個數字大於某個閾值或者小於某個閾值的時候,那它一定是錯誤的。
比如中國的人口,你再做一次人口普查,如果說中國人口變成30億了那肯定是錯的,如果中國人口是6億的話肯定也不對,但是如果你去問一個其他國家的人他不一定能夠知道這個數值。
分析師就是負責數據質量的最核心的人,我們所有的報表、所有相關的分析,都需要通過分析師去做出最後的判斷,來證明這個數字以及發掘出來的相關知識的準確性,這也是為什麼分析師要長期培養逐漸積累一些知識,他會隨著時間的增加對公司價值會越來越大。
沒有一個答案可以解決所有的這些問題,但你需要的是有專門的人數據跟業務都理解得非常好,然後就讓他去負責把整個數據質量提高,同時用商業的角度去看怎麼用一些規則來自動檢測數據的相關的質量,這樣不會花太多的人工的時間。
Q:政府行業有必要使用大數據嗎?如果有,就您知道的,典型的部門都有哪些?
A:有必要,其實所有的業務都應該從數據思維的方式開始考慮,在方方面面、時時處處都應該有大數據的應用。根據業務不一樣,大數據的應用方式也不一樣。現在我們LinkedIn中國和政府合作更多的是幫助政府去找海外的人才。我們可以幫助政府分析海外人才的區域和相關職業分布,然後制定一個相關的人才策略,把這些人吸收到政府或企業中來。
LinkedIn的用戶和用戶的檔案都是大數據,這就是對LinkedIn大數據的一個應用,就是說用這些LinkedIn平台上的那些數據來幫助政府部門來找到自己需要的這些高科技人才。
任何的地方都是可以利用大數據的,只是要看發展情況,包括這個部門的相關業務是不是準備好,逐漸把數據運營、數據驅動思維培養起來,這樣你會看到更多可以用大數據的地方。
題圖:http://Yestone.com 版權圖片庫
推薦閱讀:
※無人機數據收集、存儲以及深度挖掘
※穿越夾縫,走向卓越
※在Linux系統安裝R
※啥事情都大數據的年代,旅遊有啥大數據?
※大數據與媒體的具體關係在哪方面,僅僅作為一個記者的話大數據有用嗎?