Kaggle項目之海難分析拾遺

05-27

Kaggle項目之海難分析拾遺

來自專欄我的大數據分析學習之路

在完成了大神Hadley Wickham文章翻譯之後，立馬進行了kaggle項目的學習。關於kaggle平台和Titanic項目在這裡就不多贅述了。用kaggle titanic 分別搜谷哥、百度，返回結果分別是：68300條和146000條。

google結果68300個

百度搜索結果146000個

面對這樣的結果，再看看題圖等，titanic項目從2012年9月29日開始，將於2020年4月7日結束，已經有11169個組參於11683名選手提交了60401個預測結果，項目還剩不足2年時間，我猶豫了：Titanic被這麼多人玩了這麼多年，100%的結果都出來了，多我一個還有意義嘛？

帶著心中的疑問，我翻看著各種關於Titanic項目分享也試運行其中的一些代碼，有兩個發現：1、項目不斷有新人提交結果；2、分享中有很多問題我是完全不明白的(其中也有一些是直接照搬其他人的）。既然對自己的成長有幫助，就有參於的必要。正是基於這樣的思考，下文只寫我掉「坑」和爬"坑"的內容。

坑一：kaggle註冊驗證 和很多同學一樣，註冊時遇到無法顯示驗證碼，驗證圖片顯示不完全等問題。為此，猴子專門給出了兩篇參考知乎：

Kaggle如何入門？?

www.zhihu.com魏家輝：Kaggle賬號註冊時驗證碼無法顯示解決方法以及如何使用谷歌瀏覽器?

zhuanlan.zhihu.com

因為kaggle已經被google收購了，應該是出於統一管理用戶的考慮，註冊kaggle走的是google的驗證流動程。這就是為什麼生活在國內的大家掉「坑」的原因。在絕大多數時間，我們可以成功訪問kaggle網站包括註冊後的登陸。但在準備註冊kaggle賬號時，情況變得完全不一樣，無活顯示驗證碼、驗證圖片的「坑」來了。

Your Home for Data Science?

www.kaggle.com

原因找到問題解決似乎很好辦，只要讓自己能夠google一下就行了（VPN是個不錯的選擇，當初我用的是藍燈），但對於使用GHOST版操作系統的同學，第二個「坑」又等著你了！為了精簡系統，一般人用不上的插件（功能設置）都被做了「優化」， 結果即使通過成功訪問google仍無法顯示驗證碼、驗證圖片。既然大家選擇了學習，選擇了和一般人不同，我們就不再是一般人了，為了學習的路上小掉坑，學會原始軟體（即從微軟的鏡像下）的安裝當屬必備技能了。過程可能會長點，時間可能會多化點，可一個完整的操作系統會讓你受益無窮，你值得擁有--和「一鍵裝機」之類的說再見吧！！和數據分析無關，關於windows大家可以看看下面的網站：

MSDN, 我告訴你?

msdn.itellyou.cn

坑二：花多眼亂 網上關於Titanic項目的文章很多，而且大多都是圖多字少，一言不和就上圖。也許由於關注點頻煩的在圖片和不熟悉的代碼間切換，參考文章看得越多，感覺越亂，越沒譜。為了解決這個問題，我決定先不看圖，只看文字說明。只要說明不清楚的，不論最後排名前百分幾，統統不看。慢慢地發現，很多圖都是沒有必要的，甚至是誤導人的。