關於數據科學競賽的一點思考

我以前在國內是做數學競賽的,保送到大學之後,又開始參加數學建模比賽,到美國後逐漸往數據科學方向轉型。在數據應用學院擔任助教和競賽協調後,組織參加Kaggle競賽了很多次,這次又跟企業合辦Fintech數據科學競賽。從這些競賽的導向來看,很多競賽太偏重最後Machine Learning的環節。然而實際上,這與企業的真實需求是有很大偏差的。我在內部交流郵件中,已經跟所有參賽選手都討論過這個問題。這次再專門寫一篇文章,跟更多數據科學愛好者和求職者交流一下。

很多數據競賽,組織方已經把蘋果從樹上摘下來,洗乾淨,然後去皮,切好,送到你嘴邊,你只管咬就行了。 在真實商業環境的原始叢林中,你要想咬一口蘋果,卻不是這麼簡單

本次競賽與Kaggle競賽的最大區別,在於關注的重點不一樣,一個更關注對機器學習工具的掌握,另一個關注的,更偏重對整個商業模型和數據產品開發流程的理解。大部分數據科學求職者對前者絕對是非常重視,這沒有一點問題。然而,絕對不能忽視後者,那樣將對數據科學家職業發展產生相當不利的影響。

Kaggle競賽的關注重點,是對機器學習工具的掌握。

數據應用學院輔導過很多學員參加Kaggle競賽,優秀學員排名可以達到全球前3%,Talking Data那次我們學員還獲得了一枚金牌,我覺得我們的理解不會有太大的偏差。Kaggle競賽關注的,是商業模型或者說數據產品研發後期的數據建模。重點是在已搜集整理好的數據上,如何利用已有的機器學習工具和模型,更快,更準確地完成預測或者分類。

不管是Airbnb,SF Crime Prediction,還是最近的Homedepot, Expedia的題目,都是在主辦方將數據與資料整理齊全後,再讓參賽者施展建模能力。這相當於組織方已經把蘋果從樹上摘下來,洗乾淨,然後去皮,切好,送到你嘴邊,你只管咬就行了。你能不能咬下去,只跟你的牙齒有關係。

很多企業其實更重視的,是在開放命題條件下,對整個商業模型和數據產品研發流程的理解

真正在商業環境的原始叢林中,你要想咬一口蘋果,卻不是這麼簡單。

你需要先觀察,定位,看看蘋果樹在哪裡,上面有沒有蘋果,還要評估一下上面的蘋果熟了沒有。熟了的話,那就要考慮,怎麼去摘這個蘋果?是助跑跳,還是用梯子,還是用杆子去打?摘到了,再說如何去洗,如何去切,最後才說吃相。

本次競賽需要參賽選手考慮的,不光光是最後一步的建模分析(吃得香不香),而需要參賽選手完成這之前的所有步驟,包括:產品的目的是什麼(定位蘋果樹)?哪些數據有可能幫助實現這樣的目的(評估蘋果熟沒有)?如何搜集這樣的數據(摘蘋果)?如何清理數據(洗蘋果,切蘋果)?如何建模分析數據(吃蘋果)?

我們認為,這樣的邏輯會更自然一些,更符合商業環境的要求。

我並不是貶低Kaggle數據建模競賽,完全沒有那個意思,以後報道要除了偏差,你們要負責任。我是比較這兩種思路對參賽者的影響,強調兩種能力都缺一不可。

毫無疑問,Kaggle建模競賽提供了脫穎而出的大量機會,我們很多學員在Kaggle上獲得優異成績,找到了非常好的工作。

同時,我們也要指出,數據應用這一個領域,發展得非常快,光會Machine Learning,是絕對不夠的。我們在跟很多企業交流的時候,包括跟麥麥提金融,跟Zest Finance,還有環境大數據企業佳格數據CTO張弓討論的時候,明顯感覺到,企業都越來越強調對數據產品的整體把握,對行業領域知識和對business sense的要求也越來越高,如何設計business model,以怎樣的商業邏輯將潛在的數據價值挖掘出來,這方面的要求越來越高。

數據科學需要注意技術能力與商務視野的平衡

我們認為,數據科學求職者需要「在技術能力的深度與商務視野的廣度之間做好平衡」(引自Chris老師原話)。以下有兩點體會:

1.對於初學者,基礎一定要紮實

具體什麼叫紮實,最基本的是python machine learning的操作要熟練,理論上要理解。然後是數據清理環節,對Python Pandas, SQL上的數據操作也必須熟練,畢竟這個是在工作中耗時最多的。再然後是對分散式系統下的數據操作也要動手操作。光聽過一些課程,光聽了幾個單詞,沒動過手,那跟聽郭德綱相聲沒區別。這些都動手做好了,才叫基本功紮實。

如果基礎都不紮實,就開始擠入各種展會,跟各位數據公司CEO高談闊論企業發展,發表business的高見,這是不行的。企業的大佬可以不計較技術細節,因為別人是老大,考慮問題的層面不一樣。但對於初學者,或者數據科學的求職者,這樣的形象就是夸夸其談的騙子,應聘數據科學就是找死。初學者基礎一定要紮實。

2.具體領域商業價值分析能力

這方面是「老中技工」特別欠缺的。這方面的能力決定了以後職業發展的天花板有多高。就算你爬到最高了,如果缺乏這樣的能力,危害的將是整個公司(那誰從市值超1000億美元跌到現在以40多億美元賣給了verizon)。中國學生,尤其是中國工科生,特別容易進入「只管學工具,不管整體的商業邏輯」的陷阱。

這種思維,是機械的工具論,將自己釘死在了「技工」這條路上,把自己當成高效的「螺絲釘」。這樣的後果有兩個:

A.被機器替代。隨著技術的進步,很多「技工」的崗位會迅速被機器或者AI替代,除非你是極為頂尖的技工,要不然下場都是敗給機器,被掃地出門。

B.被其他更有business sense的人替代。烙印能夠通過極為出色的交流能力,迅速理解企業的business model,並與各管理部門保持良好的溝通,準確把握企業發展的方向,然後就被領導提攜重用(劈柴就這樣被帶到了Google CEO)。剩下的老中「技工」,一遇到經濟周期波動,就會被成片的裁掉(paypal),就算你想為美國健康工作50年別人也不讓。

我在跟老師交流過程中,老師若干次提到:對老中工程師,雖然目前技術還是立身之本,但眼光一定要開闊。這些都是金玉良言,大家一定要聽。

綜上所述,我們設計了本項競賽,希望參賽者能從全局角度,更多地考慮產品的目標,數據的來源,採集數據的方法,以及處理數據的方法。對於數據科學的求職者,也可以參考一下我們的分析。


推薦閱讀:

拿競賽國獎比理綜考280難(全國卷)嗎?
如何走出競賽失利的陰影?
停課搞競賽是一種怎樣的體驗?
參加國際奧林匹克競賽是什麼樣的體驗?
如何評價滄海、蔡子星等人在數學競賽吧、物理競賽吧等學科類貼吧的壟斷行為?他們的存在是否弊大於利?

TAG:Kaggle | 数学竞赛 | 大数据 |