灣區超級獨角獸們怎麼玩轉數據科學

過去一年,因為一些機會跟美國數據科學較為領先的公司做了一些訪談和交流,集中面試了一批海外的候選人,加上幾個好朋友肉身翻牆成功,綜合了網路上一些公開信息,得到了一些數據科學領域還算有啟發的信息和觀點。第一時間想發在跬步里跟各位PM大大探討,後續也會同步在數據科學自己的圈子裡(這裡強勢插入硬廣,數據科學部正在籌劃way社區建一個專門討論商業認知和數據科學的圈子,歡迎PM大大們捧場

首先我想聊一個數據科學家的A/B型分類,這是一個流傳甚廣的說法,了解它有助於我們了解數據科學的真正含義:

A型數據科學家:A,即Analysis(分析)。分析型數據科學家主要致力於尋找數據背後的含義,或是以一種靜態的方式使用這些數據。分析型數據科學家類似於統計學家(他們很可能本來就是搞統計的),但他們還懂得統計課程里不涉及的與數據工作相關的具體的實際操作,比如數據清理、大型數據集、數據可視化、對某一領域的深度了解和如何用數據講一個漂亮的故事。

B型數據科學家:B,即Building(構建)。構建型數據科學家和分析型分局科學家的共同點是都有統計學背景,但前者還是編程高手,抑或是訓練有素的軟體工程師。構建型數據科學家的關注點是把數據「投入生產」。他們建立的模型通常以「推薦」的方式與用戶互動,比如產品、你可能認識的人、廣告、電影、搜索結果等。

就目前我個人的判斷來看,滴滴的A型數據科學家較多,B型數據科學家正在慢慢圍繞交易引擎主題成長起來。A型DS本質上需要源源不斷產生商業洞察。說到洞察,不得不多說兩句:俞老師的洞察之深之廣毫無疑問是吊打國內一線互聯網公司其餘產品VP+產品出身的CXO的存在,背後是俞老師幾十年如一日的遷移學習。洞察力永遠是冰山上冒頭的一點點存在,但為了產生深刻的洞察,則是水下巨大的工作量。功夫在詩外,台下十年功。

去年底在一次矽谷的聚會中,一個facebook的數據科學家說到,數據科學或者數據科學家都是兩個嚴重overload的詞,望文生義或者以偏概全都是不恰當的,會離真相更遠。正確的做法是case by case,關注在每一家公司數據科學究竟意味著什麼,數據科學家怎麼深入業務,又是如何對業務產生了價值。我非常認同他的判斷。

Linkedin

Linkedin是一個有著強大數據驅動文化的公司,LinkedIn的CEO Jeff Weiner以強大的運營背景著稱業內,受其影響,整個LinkedIn的數據驅動文化也頗為強大,高層對數據和技術非常敏感。據說CEO每天早上都會看一份每小時更新的數據報告,根據報告他能迅速了解到關於業務表現的很多信息,發現問題他還會把問題立即發回給業務團隊尋求解答。

嵌入式跟業務團隊合作+極其擅長講出數據story,是從Linkedin的張溪夢到付欣給我非常連貫的感覺。Linkedin不僅坐擁灣區最高比例的華人員工,Linkedin在數據科學上也形成了自己的一套風格。Linkedin有一個slogan能夠大致描繪出這種風格:To make data-driven decision at scale。當然我還想加上後半句:To be an excellent storyteller,實在是因為Linkedin員工都是講故事的高手,給我了極其深刻的印象

另外,Linkedin的數據產品也極其酷炫,這對他的To B業務極其重要,也驗證了:最好的銷售就是創造一個最好的產品,然後展示它就行了。一個例子是Linkedin曾經做過一個人才流動和公司品牌的數據產品。

假如這個公司是Google人才流動的圖,這張圖就展現了Google和其他很多公司人才流動的情況,具體舉一個例子。假如第一個公司是Microsoft,這張圖告訴我們的是Google從Microsoft過去一段時間裡面招聘了353個人,反過來,從Google去Microsoft的人大概有80人。這個產品對於公司的HR總監是非常有吸引力的,事實上,這個數據產品對於Linkedin推銷自己的招聘方案起了極其關鍵的作用。

關於數據科學家的績效考核,Linkedin給出了一個目前基於共識的答案:

不用工程師的衡量標準(寫了多少代碼)來衡量數據科學家。衡量工作的標準是對業務產生的影響:尋找新的業務機會,改進現有業務流程,或者確定業務方向。

關於業務組織架構和人員配比,付欣給過一些數字參考:

product manager, 2-5人

engineer team: 50-100人之間

analytics team: 2-5人

In general, every engineer can code. 越低層的manager越要code.

八卦一下的話,Linedin有著灣區最好的飲食,付欣說到這一點的時候無比自豪,可惜我第一次去的時候偏偏喝了一瓶難喝無比的根汁汽水。而且沒吃上飯。

Twitter

數據科學在Twitter的應用很有代表性,也很接近滴滴:

1.許多Twitter的非機器學習主導的核心產品中,機器學習的比重不斷增加(這一點跟滴滴很像,過去幾年,全面機器學習化是滴滴核心產品策略的演進方向)

2.twitter非常重視PIE的建設(Product產品,Instrumentation儀器,and Experimentation實驗),跟滴滴的apollo相仿,twitter也有自己的A/B測試平台,並且對於統計學方法在平台上的應用研究甚深

3.twitter的數據平台很早就非常成熟,基礎設施也極其穩定。數據倉庫乾淨而穩定。ETL過程可以日常性、毫無壓力地處理無數MapReduce任務。優秀的數據科學家們可以完全致力於數據平台、產品洞察、Growth、實驗、檢索/相關性等工作(這一點滴滴還任重道遠。當然,基礎平台部的同學一直在做出非常卓越的貢獻,未來數據科學+基礎平台的通力配合,一定會產生巨大的價值)

這裡我搜集了一些Twitter常見的產品分析,可以跟滴滴做一個簡單對比

1.推送消息分析--多少用戶適用推送消息?這個比例是用戶組維度還是客戶端維度?各種類型的推送消息點擊率是多少?(推送對於twitter的意義不言而喻,相比而言對滴滴則沒有那麼重要)

2.簡訊投放率--如何計算不同移動運營商下Twitter的簡訊投放率?新興國家用戶的投放率更低嗎?如何提高這一比率呢?(對國際化來講,付費渠道的效率可能是Top3的待數據回答的問題。那麼國內呢?今天還有哪些急需數據看清楚的big problem?)

3.多個賬戶--為什麼某些國家的用戶擁有多個Twitter號的比例更高?人們使用多個Twitter號的動機是什麼?(類比這一點,什麼是滴滴的有趣數據?進一步地,有趣數據有沒有業務價值?)

整個聊下來,我感覺Twitter對於AB實驗的嚴謹程度要遠高於滴滴,不僅在於他們招募了非常資深的統計學家/數據科學家和工程師一起合作,還在於他們賦予了負責實驗的數據科學家極大的話語權,把統計顯著性放在一個非常高的位置,竭盡全力去避免根據不科學的實驗數據做出糟糕決策。實驗驅動是深入到twitter的公司文化里的。

Airbnb

先說句題外話,Airbnb可能是灣區裝修最有特點的公司,可以說將辦公環境和公司產品做到了完美融合。這對於僱主形象來說很不錯(滴滴的軟裝還可以再加強一些,哈哈)。由於airbnb對於創造用戶aha moment的有著極其偏執的追求,Airbnb非常重視NPS(這點跟滴滴也很像)。另外,airbnb的數據科學負責人一再強調數據是用戶的聲音,這聽起來其實是一個common sense。但構建這條通路是很難的,大部分時間其實airbnb的數據科學都是一個測量工具,回答諸如東京有多少房源,悉尼排名前10的目的地在哪這樣的問題。如果要讓數據變成用戶的聲音,意味著要創造一條通路--儘可能科學地收集數據,並且要把用戶的聲音轉化為更適合決策的語言。從這裡我們其實能獲得一些啟發:滴滴目前用戶反饋通路很多,但是user voice怎麼能夠更好被利用(比如我們對於評分的利用還不夠充分)?EMC團隊和數據科學團隊怎麼通力合作去把用戶聲音轉化成可供決策的語言。這是一個極其有價值的數據金礦。

Airbnb的做法中有五點給我啟發較大:

1.如果數據科學家使用的工具更加強大迅速,那麼公司內的個人交流就會更有效。數據基礎層面的建設是重要的槓桿。這可以通過更先進更可靠的技術去處理迅猛增長的數據。讓ETL過程更穩定也非常有價值,例如他們研發的Airflow系統。

2.主動丟掉一部分工作,比如說簡單的報表和基本的數據查探之類的工作可以移除,這樣數據科學團隊就可以關注更重要的事情。看板是一個通常的解決問題的方法。

3.在小型團隊中經常做一些技能型工作,以培養數據文化為己任。比如培養人們思考公司的數據生態系統,或者對一些數據工具如AirPal(Airpal是建立在Facebook的Prestodb上的一個可視化分散式SQL查詢引擎)進行培訓。一旦人們能夠使用這些工具,他們就能由著自己的好奇心進行探索數據了。避免數據科學家陷入處理日常統計需求沼澤。

4.數據科學規模化:一個例子是讓房客和房主能夠直接了解彼此。另外通過數據產品,將機器學習的模型應用於解讀從一個社區成員發出的信號,然後藉此去幫助其他成員。單點驗證後去做規模化擴張,airbnb不斷研發新的工具去使用和理解這些模型。

5.開發了airbnb主題的R語言ggtheme,統一了全公司分析報告的UI design(不愧是三位設計師主導的高顏值公司)

在組織架構上airbnb的數據科學團隊和滴滴相仿,也做了一層集中化管理,但是每個ds小組還是嵌入到各個業務線,跟業務方形成one team,直接溝通。在跟airbnb團隊聊天的過程中,我得到的關鍵信息是:對於airbnb的商業模式而言,通過數據來加深對網路效應的理解以及在個性化上做出傑出的工作可能是數據科學團隊眼下最重要的事情。

Quora(離超級獨角獸還有很長的路要走,不過產品足夠酷)

在Quora,機器學習工程師是工程部門的組成部分,而數據科學家是數據科學部門的組成部分。工程部門負責構建產品和演算法,並保證其快速可靠地運行,而數據科學部門負責理解Quora的數據,並指導產品決策。但機器學習工程師和數據科學家都會參與機器學習項目,工作主要有如下兩個方面的差別:

  • 機器學習工程師構建、實現和維護機器學習系統;
  • 數據科學家進行研究,提出機器學習項目的構想,並通過分析了解機器學習系統對公司指標的影響。

更具體地講,機器學習工程師負責:

  • 構建和實現機器學習系統;
  • 維護機器學習系統,包括速度、可靠性和性能;
  • 開發供內部(機器學習工程師和數據科學家)使用的機器學習框架,為了一些常見任務(如訓練/測試)提供便利。

數據科學家負責:

評估潛在的或現有的方法、功能、演算法或誤差度量指標,幫助改進機器學習系統;

  • 分析機器學習演算法對公司關鍵指標的影響;
  • 通過構建機器學習模型(僅用於一次性分析而不放入生產環境)研究和了解用戶行為模式。

通常,機器學習項目會同時配備數據科學家和機器學習工程師。在Quora通過如下三個步驟實現合作:

  • 數據科學家進行研究,確定機器學習系統可能的需求或改進項;
  • 機器學習工程師構建、實現或改進機器學習系統;
  • 數據科學家評估機器學習系統對公司關鍵指標的影響。

這整個體系可以看出來首先Quora的數據科學家是非常靠近B類型的,我同時認為隨著交易引擎成長起來的滴滴的B型數據科學家也可以做出非常好的工作。實際上,目前在國際化方面,數據科學部就和智能出行部展開了非常深度的合作,效果有待驗證。

Uber

Uber的可視化是這幾家超級獨角獸里最酷炫的,Uber招募了一個數據可視化全棧團隊。從計算機圖形學到信息設計、封面創意技術以及 Web 平台開發無所不包。專註於從視覺分析到地圖繪製以及從框架開發到面向公眾的數據可視化的整個過程。 Uber的可視化給我了極深的印象,在這一點上,ofo和mobike偶爾展現在公眾面前的可視化作品實在是東施效顰。

比如這張用來說明uber拼車對於城市交通擁堵的改善效果(原圖是動圖,效果更佳),整個可視化的設計是非常考究的

對於友商,大家都足夠熟悉了,我反而沒有太多增量信息可以補充。

Facebook

為什麼沒有Facebook呢?因為實在是不敢在世君面前班門弄斧啦。如果世君看到這篇帖子,聊一下Facebook的實踐就更好啦。

滴滴(按道理沒有幾個人會看到最後,既然你看到了,謝謝你。這裡也算一個彩蛋吧)

利益相關,很難完全中立客觀去看待滴滴的DS建設之路,滴滴在DS上的反覆調整,諸位老桔子想必心有戚戚焉。完全講共識,恐怕毫無洞見。講非共識,難免觸及一些政治不正確的點。匹夫之勇,姑且一試吧。

滴滴的商業模式極端來說,sku=1,按曾鳴的話說,沒有網路效應,跟sku成千上萬的電商沒法比。另外交易鏈條過短,用戶待決策的點過少,待分析的點就少,數據科學的大殺器:個性化推薦就無法施展威力。數據科學就容易變成精細化運營,這些都極大限制了數據分析師的主觀能動性,或者囿於EMC看看用戶體驗,或者囿於運營看看補貼策略。從2015年到2018,滴滴優秀的數據分析師們多多少少感到了一些有心無力。

但是靜下心來,無法破局可能也只因為身在局中。圍繞司乘公平性去看平台long term的規則設計,圍繞交易引擎B型數據科學家去一針一線構建平台壁壘,夢想依然足夠遠大。期待滴滴能夠圍繞這兩點孕育出足夠優秀且足夠多的數據科學家。

另外,招聘過程中還有幾點給我留下深刻印象的點不太好歸類,點列在最後,也許有用

1.海外的DS候選人會非常注重詢問工作內容以及跟業務團隊合作方式,甚至會主動問我如果接受offer,我會怎麼設計他的職業生涯?

2.海外的DS不僅對於自己所在公司的商業模式很清晰,而且對於很多當紅炸子雞(比如幾個月前的ofo和mobike)也能說出自己獨到的見解,溝通能力普遍非常強,思考能力出色。

3.海外的DS一般來說數據科學的武器庫會比較完備,國內則往往會出現一個分析師極其依賴一種工具,對別的工具則不太了解的情況。

4.理想狀態下,DS跟PM的邊界會比較模糊,但是各自的核心很明確(如果整篇文章,只有一點能夠被大家記住,我希望是這一點),太多人關注邊界,而不關注核心。真的是一句至理。

推薦閱讀:

聚類演算法第二篇-層次聚類演算法Birch
是什麼驅動了Python近些年強力的增長?來自Stack Overflow的分析
聚類演算法第一篇-概覽
自編碼器是什麼?有什麼用?這裡有一份入門指南(附代碼)

TAG:數據分析 | 數據科學 |