Kaggle 一個神奇的網站
今天向大家介紹一下Kaggle,感覺上面實在是太好玩了。。。所以一定要安利,安利,安利(重要的事情說三遍)
Kaggle是一個數據建模和數據分析競賽平台。企業和研究者可在其上發布數據,統計學者和數據挖掘專家可在其上進行競賽以產生最好的模型。這一眾包模式依賴於這一事實,即有眾多策略可以用於解決幾乎所有預測建模的問題,而研究者不可能在一開始就了解什麼方法對於特定問題是最為有效的。Kaggle的目標則是試圖通過眾包的形式來解決這一難題,進而使數據科學成為一場運動。2017年3月8日谷歌官方博客宣布收購Kaggle。
Kaggle 的官網網站:
Competitions | Kaggle
Slogan: Making Data Science a Sport
Kaggle中組織一場競賽的過程如下。
- 競賽主持人準備數據和問題的描述。Kaggle對這一過程以及競賽的建構、數據的匿名化以及集成最終獲勝的模型提供諮詢服務。
- 參與者通過不同的方法進行實驗,相互競賽以獲得最優的模型。對於大多數的參與者,他們的提交會根據預測精度被立即評分,並在實時的積分榜上顯示。
- 在截止時間過後,競賽主持人為「全球性的,永久性的,不可撤銷和免版稅地使用獲獎作品」支付獎金。亦即競賽獲勝者的演算法、軟體和相關的知識產權是非排他性的,除非特別指明。
除了公開競賽以外,Kaggle還向活躍參與者提供私下的比賽,以及為大學團體提供Kaggle-in-Class項目。
根據Kaggle官方提供的數據,Kaggle在全球範圍內擁有將近20萬名數據科學家,專業領域從計算機科學到統計學、經濟學和數學。Kaggle也曾經和NASA、維基百科、德勤和好事達合作舉辦競賽。其中的一項獎項高達300萬美金的競賽是Heritage Health Prize,目的是通過病人看病及吃藥住院等數據預測明年病人住院的天數。另一項與微軟合作的競賽則旨在提高Kinect的手勢識別精度。
Kaggle的競賽在艾滋病研究、棋牌評級和交通預測方面取得了成果。基於這些成果產生了一系列的學術論文。產生這一結果的原因是實時積分榜促使參加者不斷改進以試圖超越當前的最佳實踐。獲勝的方法常常在Kaggle的博客No Free Hunch上展示。
目前的話,我正在看這位大神DanB | Kaggle的文章,感覺寫的很通俗易懂。是不是看著很可愛,哈哈哈
有興趣的也可以參考@a2Mia姐的回答
1. Titanic(泰坦尼克之災)
中文教程: 邏輯回歸應用之Kaggle泰坦尼克之災 英文教程:An Interactive Data Science Tutorial2. House Prices: Advanced Regression Techniques(房價預測)
中文教程:Kaggle競賽 — 2017年房價預測英文教程:How to get to TOP 25% with Simple Model using sklearn
3. Digital Recognition(數字識別)
中文教程:大數據競賽平台—Kaggle 入門 英文教程:Interactive Intro to Dimensionality Reduction我保證你不會後悔的。
推薦閱讀:
※kaggle小黃車競賽 得分:0.41038
※Kaggle 入門 1.1——A Journey through Titanic
※kaggle首戰,踩坑?學習?
※關於數據科學競賽的一點思考
※Kaggle入門系列:(一)機器學習環境搭建