在Booking這樣的公司,數據科學家的日常是怎麼樣的?

在Booking這樣的公司,數據科學家的日常是怎麼樣的?

來自專欄極光日報39 人贊了文章

數據科學家究竟做些什麼?厲害在哪?相比數據分析師,他們又多了哪些技能和知識呢?我們採訪了 Booking. com (繽客)的高級數據科學家 Nishikant Dhanuka 讓他來聊聊這份工作的職責和寶貴經歷。

圖文來自:towardsdatascience.com/

譯者:佑銘

01 面試繽客

在迪拜從事了為期三年的諮詢工作後,兩年半前我作為一名"數據科學家"加入了繽客。繽客 (Booking.com),是一家荷蘭在線預定住宿網站,也是美國上市公司 Booking Holdings 的旗下品牌之一。 2018年4月其網站上顯示共有 2,837 萬個房源, 位於 13 萬個旅行目的地,遍及全球 228 個國家和地區,每日預訂晚數超過 155 萬晚。對於我的職業生涯而言,從諮詢轉行到純粹的數據科學工作是一個巨變。事後看來,我很慶幸當初的決定。事實上,在面試期間我就被這家公司驚艷到了。我最喜歡的一點是當初面試我的是同職位的同事,因此在這個過程中有很多高質量的互動。這也再次證實了招聘人員所說,這家公司有著「扁平化管理」。同時,被面試者的背景也是多元而有趣的——一位有著天文學博士學位,另一位是他自己的創業公司的 CTO。

——另外,我必須承認,辦公室的豪華午餐(以及阿姆斯特丹的工作地點)也在很大程度上影響到了我的決定 ??

02 加入團隊

如今我依然記得,在入職的第一天,一位小夥伴問我:「你覺得你的電腦屏幕怎麼樣?」。我不確定該怎麼回答,因為我之前只在一個筆記本上工作。然後我就得到了一個 Macbook,兩個大屏幕(主要用於投射我的代碼,展示給非技術用戶看)以及其他很多酷玩意。我準備用我的新頭銜——「數據科學家」,去征服世界!

很快,我就得到了我的第一個入職項目,主要是分析大量文本並獲得一些商業洞察。之前,我只接觸過結構數據,所以這次挑戰讓我激動萬分。我立刻全身心投入其中,並努力提升自己以對文本數據進行有意義的分析,但是很快,我就遇到了麻煩:繽客的數據規模。

繽客 Booking.com 每 24 小時就被預定超過 1,500,000 個房間,並且上百萬人在任何時間都能瀏覽網頁,這就意味著身為數據科學家的我所接觸到的數據是非常龐大的。幸運的是,繽客提供了「用 Spark 進行分散式計算」的內部培訓。我立即參加了這個培訓,現在我的分析能在多台機器上運行了。

03 更多項目

(繽客的數據科學家在分析學會議上展示他們的項目)

我的第二個項目是為我們的合作網站建立一個「推薦系統」,用來推薦相關機會。這個項目讓我十分激動,因為之前只做過標準回歸和分類模型的工作,所以我迫不及待的想嘗試新的東西。這是我第一次接觸到這個迷人的領域——協同過濾 (collaborative filtering) 和因子分解機 (factorization machines)。由於數據規模過於龐大,我必須再次在 PySpark 中用稀疏矩陣來解決這個問題。然後,我編寫了代碼並啟用 A/B測試,看看它是否對我們的業務產生正面影響。這也是我的第一個 A/B 測試經歷,幸運的是,我們擁有出色的實驗工具和基礎設施,建立這個測試並沒有費太大勁。在幾次測試之後,我們也能夠處理冷啟動問題了,我很高興能夠成功完成第二個項目。

接下來就是一個有趣的多項目組合,每個項目都是不小的挑戰,需要我全身心投入並持續學習。比如說,其中一個項目需要我將業務問題展示成加權網路圖,並基於此進行有趣的分析;而在另一個項目中,我必須演諮詢顧問的角色,通過簡單的數據分析獲得有意義的商業見解,進而驗證一個重要的戰略決策。

兩年半的時間過得飛快,如今我已是 Booking.com 的一個高級數據科學家。挑戰的難度只會越來越大,最近我在開發一個 AI(人工智慧)產品「機器翻譯」,並採用神經網路和深度學習演算法來構建一個全面的翻譯應用系統。儘管機器翻譯是近期有較大突破的研究領域課題,我們仍決定採用「業務驅動的AI」方式,專註於如何為客戶提供幫助。我會在另一篇博客上對這個話題上進行深入的討論。

如果你對繽客 Booking.com 「全規模神經網路的機器翻譯應用案例」有興趣,也可以在後台回復「booking」下載相關學習資料

04 團隊架構

接下來簡單聊一聊繽客的數據科學家在團隊中是如何安排任務的:我們稱之為的「嵌入式」結構,在這裡,數據科學家與業務緊緊相連。舉例來說,我在一個團隊中身兼開發者,數據科學家,產品負責人和其他許多特殊職位。我們這樣做,就讓團隊具備了能讓一個想法從概念化到最終實施的相關能力。對於日常運營,我們遵守「繽客短平快要領」:每日站會,回顧總結,列待辦事物表,團隊目標,KPIs 和 OKRs(目標和關鍵結果)。這些再結合每周兩次的衝刺會議,能讓團隊穩步前進,每次展示的案例無論是成功還是失敗,我們都可以儘快從中學習到很多知識。

——正是因為這種與商業的密切互動,繽客的數據科學家在溝通,商業意識,技術工藝等方面都表現得非常出色。這些都是我們在面試中考察的基本技能。

05 最值得一提的:團隊成員

(每周分析討論會上的繽客數據科學家團體)

繽客有超過 120 名數據科學家,並且這個團體正在日漸增長。我們每個人都有不同的經歷,背景和工作偏好。對於一些人來說,這是他們博士畢業後的第一份工作,而另一些人則已經擁有了大量的工作經驗;有些人是貝葉斯學派,有些人則是頻率論學派;有些人喜歡 R,有些人則偏愛 Python;有些人強烈擁護外核學習(Vowpal Wabbit),而有些人則更喜歡用 Spark 和 H2O 進行分散式計算。這種多樣性讓大家在團隊中能互相學習和進步。我們有周會,比如說分析學討論會,日報俱樂部等,能讓我們得到同輩們對分析的意見,並討論如何將最新研究論文中的想法應用於解決繽客面臨的實際問題。此外,人們自願定期舉辦技術培訓,包括 A/B 測試,Git, Hive, R, Spark, H2O, TensorFlow 等主題。

——對我而言,這種「員工和團體」文化是這份工作中最棒的部分,它讓我每天都能學到了新技能,我很享受這個過程。

06 一些挑戰

像每一個企業正在成長的數據科學家一樣,我們也面臨著許多挑戰。

  • 首先,因為我們的數據科學家社群正在快速成長,有時難以及時的分享知識。為了解決這個問題,我們一直在嘗試新的方法,如通過專題講座(如自然語言處理 NLP),emails,Hacksons 等,以幫助在成長的每個階段都能快速的分享所學。
  • 將數據科學家融入商業中也有不利之處。有時我們會在日常工作中錯過關鍵而友好的同行反饋。為了解決這個問題,我們鼓勵大家經常展示他們的工作,並與同行及時討論他們的最新項目。同時,我們也為新加入者提供了導師計劃。
  • 儘管我們多次為數據科學家團體做出貢獻,但是我們無疑可以更好的將學習經驗和實踐項目分享給外界。我們目前正在制定一些相關方面的指導方針。

我認為好的方面是我們看到了上述這些問題和其他許多挑戰,並且組建了特別工作組來研究這些可以改進的地方。

最後我要說的是,在這樣的企業擔任一名數據科學家,工作和生活也絕對不會枯燥的!


上周,Udacity 在阿姆斯特丹的 TNW 科技峰會上,也向全球首發新課——【數據科學家】納米學位,通過這門殿堂級課程,你可以在 7 個月內完成比這位繽客數據科學家更多的實戰項目,其中也包括:

  • 圖像分類器(深度學習)
  • 客戶檔案細分(與 Arvato 共同設計)
  • 文本信息處理(與 Figure Eight 共同設計)
  • 推薦引擎(與 IBM 共同設計)

數據科學家納米學位_數據科學入門課程_數據科學家培訓-優達學城(Udacity)官網 | Udacity?

cn.udacity.com


推薦閱讀:

數據科學案例分析
粗略學習Metro Map to Data Scientist(數據科學家之路)
數據科學家教你如何搞定女朋友!
R語言兵器譜:數據科學家的十八般武藝
碼農們與數據科學家的新寵——開始用了就停不下來的無與倫比的編程語言是?

TAG:數據分析 | 數據科學家 | booking |