為什麼Kaggle對找工作有幫助?如何入門?

我們從下面5個方面系統聊聊:

1)Kaggle是個什麼東東?

2)什麼人會使用Kaggle?

3)在Kaggle上做項目對你找工作有什麼用?

4)零基礎如何入門Kaggle?

(具體聊聊在做kaggle項目的時候遇到哪些問題,問題出現的時候我是如何思考的?最後又是如何解決的?)

5)一個入門的例子:手把手教會你入門Kaggle

1.Kaggle是什麼?

Kaggle 是一個流行的數據科學競賽平台。由 Goldbloom 和 Ben Hamner 創建於 2010 年(官網地址:Your Home for Data Science)。為什麼這兩個傢伙要創立這樣一個平台呢?

數據科學社區一直有這樣一個難題:對於同一個問題,可以有多個模型來解決,但是研究者不可能在一開始就了解哪些模型是最好的。

Kaggle就是為了解決這樣的問題誕生的,它試圖通過眾包的形式來解決這一難題。納尼,數據科學還能眾包,那啥是眾包呢?

眾包是一對多的關係,假如猴子我有一個問題,我可以把這個問題發布到網站上,然後很多人看到了這個問題,其中有10個人給出了這個問題的答案,這樣我就有10個答案了 (對應機器學習中的模型)。我選出排名前3的答案,拿出100萬獎勵這3個人。現在的豬八戒網站,滴滴打車,知乎本質上都是眾包模式。(知乎的點贊模式其實就是一種獎勵:社交認同感)

扯遠了,回到Kaggle上來。在這個平台上,企業和研究者可在其上發布數據和問題,並提供獎金給能解決問題的人。多個數據分析相關的能人志士在其上進行競賽以產生最好的模型來解決問題。進而使數據科學成為一場運動。

這就好比,金庸小說里的華山論劍,吸引了江湖各大有武功的人前來。同樣的,Kaggle就是數據科學領域的「華山論劍」,吸引了來自數據分析,機器學習,深度學習等領域的人。

Kaggle 官方表示,該社區目前在全世界範圍內有超過 85 萬的數據科學家用戶。2017年3月谷歌收購了Kaggle。谷歌雲機器學習與人工智慧首席科學家李飛飛說:人工智慧的發展需要數據民主化以及越來越多的數據和模型,這是我們對 Kaggle 高度重視及收購的原因。

2.什麼人會使用Kaggle?

參賽者主要分為下面兩種:

1)一種是以獎金和排名為目的,包括靠獎金為生的職業Kaggler。這些人有豐富的數據分析,機器學習工作經驗的業內人士。

2)一種就是以提升相關技能和背景為目的業餘愛好者甚至在校學生了。這類型人有一定技術能力,但經驗欠缺,是想從中進行學習和鍛煉的「長江後浪」。

3.在Kaggle上做項目對你找工作有什麼用?

1)用Kaggle項目經驗彌補你沒有工作經驗的不足

之前有很多轉行數據分析的朋友經常問的一個問題是:猴哥,我是轉行,沒做過相關的項目啊,根本沒有經驗,怎麼整?

其實公司看你的項目經驗,並不是說你要工作過,而是想通過你做的具體事情來了解,你是否有某方面的能力。

讓別人知道你能力的最好辦法不是你說了什麼,而是你做了什麼。各位老鐵,感謝互聯網時代吧,你做了什麼是可以藉助互聯網留下痕迹。

所以解決辦法很簡單,把Kaggle上的項目經驗寫在你的簡歷上可以很直觀的展現自己的能力,同時作為你的項目經驗。

2)Kaggle的Profile是你能力的證明

Kaggle競賽另一個有趣的地方在於每個人都有自己的Profile(個人資料),上面會顯示所有你自己參與過的項目、活躍度、實時排位、歷史最佳排位等,看上去非常有成就感。

同時,Kaggle作為數據科學業內享有盛名的平台,在業界擁有極高的認可度。所以如果你是想尋找相關行業的工作,當你把這個Kaggle Profile的地址放到你的求職簡歷里,會被優先錄取。

正如有個創始人招聘這麼說過:

寫上參加過Kaggle比賽,我會看簡歷。

得過一次10%,我會給電話面試。

得過2次或者以上10%,我會給on site面試。

得過一次前10,我們會談笑風生。

(在 Kaggle 上一次比賽的結果除了排名以外,還會顯示三擋: Prize Winner,10% , 25% 。所以剛剛接觸 Kaggle 的人很多都會以 25% 或是 10% 為目標。)

現在你已經知道在Kaggle上做項目對你人生的重要意義了。那麼接下來的問題就來了。

4.零基礎如何入門Kaggle?

4.1掌握一門數據分析語言

Python和R都可以,如果是新手,建議從Python開始,不知道如何開始的,可以看這個教程:數據分析入門(Python) | 猴子社群第2期闖關遊戲怎麼玩?

4.2 從練習項目開始

Kaggle上的項目競賽分成下面4個最常見的類別

1)Featured:這些通常是由公司、組織甚至政府贊助的,獎金池最大。

2)Research:這些是研究方向的競賽,只有很少或沒有獎金。它們也有非傳統的提交流程。

3)Recruitment:這些是由想要招聘數據科學家的公司贊助的。目前仍然相對少見。

4)Getting Started(練習項目):這些競賽的結構和 Featured 競賽類似,但沒有獎金。它們有更簡單的數據集、大量教程。

如果你從未獨立做過一個數據分析相關的項目,就從Getting Started(練習項目)開始入門。練習項目不僅難度低,並且還有很多社區創造的教程,你可以用來對比改善自己的測試結果,從中進行提高。比如經典的泰坦尼克號項目

4.3 我的排名低,怎麼辦?

有些初學者擔心低排名出現在他們的個人資料(Profile)中,結果一直沒有開始。但是,排名低真的沒什麼關係,重要是的你已經開始有做數據分析、機器學習相關的能力。沒人會因此貶低你,因為每個人在一開始都是初學者。

羅馬不是一天建成的,你可以按下面這個過程不斷學習新的知識,循序漸進的提高排名:

第1步:先提交一個最基本的解決方案,熟悉基本的流程

第2步:學習新知識,優化方案進入排名前 50%

第3步:繼續學習新知識,優化方案進入排名前 25%

第4步:繼續學習新知識,優化方案進入排名前 10%

5.一個入門的例子:手把手教會你入門Kaggle

5.1第一步當然是註冊一個Kaggle賬號

按下圖步驟操作即可

註冊後會收到一封確認郵件,如果沒有收到看看垃圾郵箱中有沒有,我的就被放到垃圾郵箱中了。

5.2 泰坦尼克號案例手把手入門

為了給大家說明如何入門一個kaggle項目,我製作了入門的三部曲,手把手教會你。

1)

機器學習(入門):簡單線性回歸?

www.zhihu.com圖標

2)

機器學習(入門):如何用邏輯回歸分類?

www.zhihu.com圖標

3)

機器學習(入門):Kaggle和泰坦尼克號預測?

www.zhihu.com圖標機器學習(入門):Kaggle和泰坦尼克號預測機器學習(入門):Kaggle和泰坦尼克號預測?

www.zhihu.com圖標

推薦閱讀:

做好用戶畫像分析,比消費者本身更懂自己
Python語言在未來的發展前景
關於互聯網,這些數據你知道嗎?
用Python讀紅樓夢之——二、詞雲美化
中美貿易戰打響,你最好要有所準備!

TAG:大數據 | 互聯網 | 互聯網數據分析 |