天池大數據競賽和Kaggle、DataCastle的比較,哪個比較好?

我是一個新人,想關注一下大數據比賽的相關信息,之前聽說過幾個比較有影響的比賽,想請大神們幫忙分析分析。


您好,我是一名混跡天池,Kaggle和DataCastle的大數據業餘愛好者(天池ID:快樂人生; 俗稱:老王)。

對於這個問題,總體來講,三個平台都有各自的特色吧。具體地,

1,從賽題本身來講。

整體來講,天池至今為止,上線的賽題提供豐富的業務場景,也就是,給你一些基礎數據表且告訴你具體含義。而Kaggle和DataCastle上線的賽題不少直接給你一些匿名特徵的樣本。這導致,天池的賽題還需要你構建特徵工程,然後才是其他後續工作。從數據量來講,天池分離線賽數據和平台賽數據。就目前來看,天池的離線賽數據較Kaggle量小,也就是對參賽者的PC配置要求低一些,也有利於對數據的分析和理解。而天池平台賽的數據量就比較大了,一般情況下,比Kaggle和DataCastle的數據量會大一些。數據量大,某種意義上,也代表了比賽的公平性,可靠性。參加過比賽的人,尤其是天池比賽的人,都有一個體會,同一個演算法的性能會受數據量的影響。

因此,對一些買不起(或不想買)高配置PC的選手來講,天池這種方式相對來講更適合。Kaggle數據量足夠,但你PC可能玩不起來(雖然它也提供計算平台,但是你的代碼需要PUBLIC。)。DataCastle數據量較小,公平性不能很好確保。

2,從賽制角度講。

對每道賽題,天池分兩個賽季,而Kaggle和DataCastle一般僅一個賽季(雖然3者都有數據更新一個環節)。就如第一條中說的,天池分兩個賽季,目的是不同的,一賽季注重參賽者硬體上的公平性,二賽季注重賽題本身可靠性。另外,它們的線上評測方式不同,天池是每天定時統一評測一次,而另外兩個是每天即時評測(限定每日最多評測次數)。各有利弊吧。定時評測,不一定符合一些人的作息,但能減小部分人的好處(一人多個賬號)。即時評測方式,增加了人性化,但難免一人多號帶來的不公平性。(PS:建議天池融合兩者利弊,創新另一種評測方式,比如:二賽季時,每天即時評測一次。)

3,從激勵角度講。

平均來看,獎金數量,Kaggle(按匯率換算為人民幣)最多,其次天池,然後DataCastle(和其他兩個相差有點多)。 另外,天池的大部分賽題,每周有周星星激勵(發禮品),比賽結束根據排名(有時也會搞一些活動)發放糧票(兌換禮品)。這一點目前Kaggle沒有。DataCastle目前來看,至少還沒有糧票激勵。 另外,天池和Kaggle都有數據科學家的排行榜,而DataCastle目前還沒有。這個排行榜根據參賽者的總積分來的(與參賽場數和每場的成績(有時和隊員數)有關),大體評價一個選手的整體實力吧。對未來發展,如工作方面,自然會有一些好處。

4,從參賽群體角度講。

參賽群體,天池和DataCastle現在主要來自中國,而Kaggle很大部分是歐美等國家的選手。 整體上看,Kaggle選手的素質相對較高。自然地,目前來看,Kaggle冠軍的含金量也相對較高。這可能和知名度和數據開放程度有關係吧(聽說,國外選手比較喜歡數據開放)。當然,對新手或實力還未達到全球一流水平的參賽者,Kaggle就不一定那麼好玩了。當然,從鍛煉角度想,無論哪個平台上的賽題,都能得到一定程度的鍛煉。就天池和DataCastle對比看,知名度,從玩家數量看,天池要高一些。冠軍的含金量,天池也相對較高一些。

5,從計算資源角度講。

嚴格來講,這三個平台,天池是唯一算得上提供了計算平台的。體驗過的人,我想都覺得速度杠杠的,尤其限制了每個隊伍的計算資源後。沒體驗過的,有機會,去體驗一把就知道了。當然,這個平台主要特色是:數據開發和演算法開發。對數據開發,可以直接在平台上用HIVE SQL實現數據表操作代碼,另外,如果有更豐富的邏輯需要實現還支持 UDF(User Defined Function)、MR(MapReduce)和Graph形式的線下實現,提交平台運行。從個人體驗看,剛開始我比較討厭平台賽,因為不會編寫這些代碼,也不會用。但是現在,會了之後,你又會有另外一番體驗(這種體驗類似於,你一直用MATLAB就喜歡它而不喜歡別的,一直用R,Python等等。)其實,換個角度思考,至少你特別想入職阿里巴巴,用習慣了這個平台,在面試時會給你加分吧。PS:個人感覺天池平台不難學習,尤其越來越多的手把手教程,關鍵是速度快。

PS:今年天池平台還推出了獨特的新人賽(這是其他兩個平台還沒有的)。這個新人賽以經典賽題作為學習場景,提供詳盡入門教程,手把手教你學習數據挖掘。天池希望新人賽能成為高校備受熱捧的數據實戰課程,幫助更多學生掌握數據技能。新人賽鏈接:Tianchi Big Data Competition-Competitions Focus on Data Algorithms(新手不妨考慮從這裡開始數據之旅)。

祝好,HAVE FUN!!!


1、datacastle和kaggle的比賽自由發揮空間很大,踏實做的話可以學到小規模機器學習的方方面面,但做多了基本就是xgboost調參、模型融合;天池的數據量接近真實的業務場景,環境也接近大公司的業務環境,能夠積攢分散式項目經驗,但在限定的比賽時間內發揮空間不大,基本是xlib里gbdt調參大賽。

2、kaggle賽後的分享做的比較好,能看到很多人的思路和代碼,大大擴大視野和思路,對於賽後的總結很有幫助。天池的分享主要集中在Top選手現場答辯的presentation,而那些很有創新、但成績不太好的思路則沒有機會被分享,這樣大大減少了多樣性,對於出題方和參賽者都不是喜聞樂見的。data castle幾乎沒什麼分享。

3、datastle 3個比賽的獎金才有天池1個比賽的多。

4、天池和datacastle都有現場答辯,但天池的評委多是業界大牛或者真是業務業務負責人,datacastle的評委多是電子科大的老師,對於比賽的評判視角有諸多不同。

5、國內還有個kesci平台,也舉辦數據相關的比賽,演算法部分和datacastle神似,但有數據產品開發大賽。據說天池也有可視化大賽和中間件開發大賽,這2類比賽似乎是datacastle和kaggle所沒有的。天池的比賽多樣性更強些。


目前國內的三個平台,天池,dc和kesci中,天池相對做的好一些,感覺現在kesci的活躍度要比dc更高,畢竟kesci是一個創業項目,dc是從高校孵化出的項目,前者的生命力會更頑強一些。天池的第二階段提供計算資源,對於很多沒有計算資源的同學是好事情,但是也限制了一部分不願意花時間去熟悉平台的人。後來天池好像也發現了這個問題,也為第一階段的比賽提供了獎金激勵。另外,國內比賽的一個共同特點是測試數據不劃分public和private,而是採用換數據的方式來解決過擬合問題,這樣既耗費了大家更多的時間精力,同時也並沒有降低過擬合的幾率,反而可能更大。還有就是國內平台都需要答辯這個環節,這對於學生來說是一個不錯的和企業接觸交流的機會,估計贊助的企業也想利用這個機會招賢納士,但是對於工作的人來說,未必都有時間去參加這個答辯。以上這三個平台,其實都是模仿的kaggle,但是用戶體驗包括遊戲規則的設定都還都有些差距。至於選擇在哪個平台上比賽,主要還是看目的。如果是為了學習或者興趣,kaggle應該是首選;如果是學生為了就業的話,沒有接觸過大數據項目的,可以通過天池去學習一下;如果就是為了獎金,dc和kesci的競爭可能會相對小一點。


怎麼一下子來了這麼多大神……趕緊關注。

從(取得好成績的)難度上來說,kaggle最大,天池次之,再就是DC.


來了好多老朋友,看看簽名就都知道大家最後工作找的不錯。

各方面的對比大家都說的差不多了,我就說說個人覺得最重要的地方:找工作。

就我所認識的參加14年天池比賽的小夥伴,基本上都是offer拿到手軟,阿里星都出了2個 @江少華@張馭宇 ,其他special offer也不勝枚舉。

參加天池的比賽,相比其他2個平台來說有2個主要優點:

一是可以接觸分散式計算平台,對資源較少的同學而言,加快了運算速度,也提升了分散式計算平台的相關經驗(使用或者編碼方面的),對於將來的工作而言是很不錯的一份經歷;

另一個方面就是阿里集團的一個背書,畢竟Kaggle雖然全球比較知名,但是在國內除了業內人士,可能知名度綜合來說不一定比得上阿里,而且最要緊是top的隊伍可以走校招綠色通道甚至阿里星面試。


不是大神,寫的也是個人看法。

從規模和知名度來講,Kaggle &> 天池 &> DataCastle。

從賽題角度看,

kaggle的賽題最豐富,各種類型的賽題都有,也舉辦過學術會議的競賽(如kdd cup等)。

天池的賽題大部分來自阿里巴巴各業務線,雖然也跟一些政府、企業有過合作。

DataCastle基本上是參照的kaggle模式,也有一些比較有意思的賽題[沒參加過],創辦人周濤是天池第一次天貓推薦演算法大賽的評委。

從參賽人員限制看,

kaggle和DataCastle一般不做限制,面向全社會開放。

天池以前大部分面向學生群體,最近也逐漸向全社會開放。

數據量方面,天池 &> Kaggle &> DataCastle。

專業性方面,kaggle最好,歷史也最悠久,從反作弊、評測標準、積分排名等方面都顯得更專業。

另外,天池有一個優勢就是提供分散式計算平台,參加大數據量的賽題時,非常省心。

作為一名數據工作者,非常高興看到像天池、DataCastle這種類型的平台在國內的興起,說明越來越多的公司開始意識到數據的價值,不同平台的競爭也會促使這類平台的不斷完善。

作為天池的粉絲,還是希望天池能夠走出阿里巴巴,更加開放,更多的和政府、企業等合作,出更多更好的賽題。


參加過幾次kaggle和第一屆天池比賽

從賽題角度看:

kaggle是老牌的全球性質的數據挖掘競賽平台,賽題包含各個領域,靈活多樣,datacastle主要是結合國內一些公司業務相關的競賽,天池主要是阿里巴巴以及與阿里有合作的相關機構的一些具體的業務問題;

從數據量的角度看:

數據量的大小:天池比datacastle和kaggle通常大很多。如果參加天池的比賽,通常是在阿里的odps數據平台上handle,那麼對參賽者掌握分散式處理的能力有好處。datacastle和kaggle的一些比賽數據量不大適合單機玩,有的數據量也不小,這也需要不錯的計算平台;

從參賽者演算法發揮的自由度看

kaggle和datacastle參賽者可以嘗試更多的想法和演算法設計細節,但現在比賽越來越多,高手的套路也漸漸固化。天池競賽則一般都是使用現有的幾個在阿里分散式計算平台上實現好演算法;

從比賽的賽後分享角度看

kaggle&>天池&>datacastle

kaggle賽後分享很多,思路代碼俱全,還有不少創新性的思路,這對初學者來說是很有用的,可以見識到解決一個問題的具體思路和源代碼。天池的分享主要是top選手,創新者如果沒能取得比較好的名次,往往沒有多少機會被分享

從比賽對找工作的作用看

對於國內公司來說,天池&>kaggle&>datacastle吧,天池的數據價值更高且數據量大,而且每次比賽參加人比較多,得到好名次往往難一些,比較受到面試官的認可,kaggle和datacastle有的比賽參加的人還可以,有的比較少,競爭沒有天池激烈。


小白開始參加過上屆天池和幾次kaggle,個人更喜歡kaggle。

1.平台分享和交流

首先kaggle的界面顯然更友好,在每個比賽項目中都可以看到只與該比賽相關的論壇和在平台上其他選手跑的代碼和輸出結果。排行榜中顯示每個隊伍的每個隊員賬號,可以直接瀏覽其他選手的個人主頁,包括他們的各種參賽記錄,帖子和代碼(如果有的話)。注意在排行榜中,如果某人賬戶左邊有個直方圖 一樣的圖標,那就是他這次提交結果的代碼,可以點開來看。對於新手來說我覺得這種入門級的代碼是很有幫助的…有些比賽結束後選手會放github的鏈接,同樣可以通過排行榜獲取,這樣可以看到他們本地跑的代碼。部分選手會在個人主頁上放github。論壇給人思路,代碼教你實現,真的收益很大。

而天池比賽,比賽界面,論壇,個人主頁,御膳房,完全沒有整合在一起,都是獨立的。幾乎沒有其他選手分享的代碼。論壇上可能會出現極少數比賽解析和代碼,往往是往年的經驗帖。而論壇內容也是雜七雜八,所有比賽的帖子都放一塊(雖然說可以篩選…),發帖的人你也不知道是比賽中的哪位。最後的答辯,看了之後真的能化為幾用嗎?對於小白來說,看那些ppt對我真的沒什麼幫助…還有比賽討論的qq群和旺旺群,別提了…那個真的是促進比賽交流嗎?活躍的就是那幾個認識的,跟比賽內容有關的沒幾句,一般都是問問制度啊,最後獎勵啊,還有跪舔阿里比賽工作人員的…醉了。而且群這種很煩人的東西,一下子幾百條,誰都守著看哪條有用啊。

2. 線上平台

天池的優點大家都說了,進入第二輪可以跑御膳房。首先,你得進入第二輪…不得不說御膳房和更大的數據算是激勵人的點。御膳房使用感很好,跑得也很快。像kaggle線上限制跑十幾分鐘吧我記得,速度跟線下差不多。線下跑真的急死人了,即使是數據不是特別大的比賽。

3. 比賽相關

天池比賽一天只能交一次,而且不是實時出結果。kaggle一天能交好幾次,具體比賽有具體上限,實時出結果。所以天池比賽如果想拿好成績,真的要天天泡著研究才行…

天池比賽一年也就幾個,黃金聯賽賽題每年好像差不多。kaggle比賽更加多樣化,每幾個月都會有新的比賽。

4. 工作相關

天池進前五十直接獲得阿里綠色通道,對於想進阿里工作的還是蠻有吸引力的~kaggle的話比賽拿獎也是可以寫簡歷的,外國公司會看這個。也可以寫在linkedin上。kaggle部分比賽跟職位直接掛鉤。

天池大賽是我第一次參加的數據比賽,總體感覺還是不錯的,激發了興趣。之後就打算泡kaggle啦~


我也來湊湊熱鬧吧,題主問的是作為一個新手推薦那些平台。

首先,三個平台我都有參加。總體上:建議的話,這三個平台都沒有排他性。都可以參加,我就講講對於新手比較細節的東西吧。

1、語言

如果題主英語不是特別棒,我不推薦先從kaggle入手,雖然目前它的新手幫助文檔是最豐富的。我覺得應該把有限的精力花在理解遊戲規則上,而不是翻譯上。那麼dc和天池都是很好上手的。這兩家我推薦先上datacastle,原因是dc的賽題數據量不大,而且較簡單,最重要的是賽題一直開放,可以持續提交。不過很遺憾的是對正式比賽的分享不夠,好像只有前幾名的演算法思路,不像kaggle和天池他們就有比較多的代碼可以查看。

2、交流

社區:三個平台都有自己的社區,kaggle的內容質量最高,天池其次,datacastle的社區有點詭異,看得人很多,回復很少。題主都可以多逛逛,kaggle在這兒Forums | Kaggle,天池在這兒天池競賽 - 開發者論壇,dc在這兒首頁 - DataCastle社區。

即時通訊:kaggle幾乎沒有;天池官方的以旺旺為主(跟騰訊有競爭吧),qq群也有,但是都是以競賽為單位的,競賽結束後基本都結束了,有一個特點群里感覺全是他妹的大神,手動笑臉,推薦一個群:155167917;dc的官方qq群是一個統一的。人數大概有1200+吧,群很活躍,各種人在裡面吹牛逼,對新手還是很友好,只要你不打水廣告,就算在裡面推廣競爭對手也沒關係,qq群:423732457。

3、參加流程

kaggle有個人參加的這種說法,天池和datacastle無論是幾個人都算團隊。一般來說就是報名,組隊,下載數據,線下計算,提交得分,獲取排名。需要說一下的是:很多新手會在提交的那個地方卡住,因為三家都是要求提交csv文件的,而且是UTF-8格式,注意是無bom的。windows系統推薦使用notepad++,切忌不要使用excel去編輯你的csv文件。如果提交實在有問題,我印象里dc有提供一種字元串提交的功能,就是把原本要提交的文件內容copy到輸入框里提交,據官方講可以規避文件編碼所帶來的錯誤。不過kaggle提供了在線運行程序的方式,我個人很喜歡,會有一點學習成本的。ps:提交算分的那個地方,kaggle和dc都是實時得分,天池為了防作弊,使用的是定時打分,但是感覺體驗不好,等得人揪心。

4、反饋

一般參賽,會遇到各種問題,其中天池的反饋就像前面答主說的是最豐富的,kaggle支持郵件的反饋,dc可以郵件,社區反饋比較慢,不過很好的是,你只要在群里吼一聲,就有官方的回復,這個很方便,我說一個老挭,「念妹子是我的」,有沒有懂得起的。哈哈

ps:說一下有中國特色的地方,在天池和dc上你沒法和競賽前幾名直接聯繫,呵呵。

最後:@吳朝恬,你是哪個競賽沒有去答辯的啊,我覺得好奇怪,我幫你在群里問問


謝邀。參加過幾次Kaggle的和第一屆天池的比賽。

比賽規則上,天池比賽最特別的地方就在他有一個專門的計算平台,數據在伺服器上,所有選手都遠程連到伺服器上編寫代碼,相對來說可以算是最公平的比賽。與此同時,這種模式也限制了選手使用一些成熟的演算法工具包,真要做好,比賽要花的時間也會多一些。另一方面,阿里限制了參賽選手必須為學生,少了職業選手,競爭稍微小了點(kaggle的主力其實也是學生群體)。

比賽中和比賽後的討論也有不少區別。天池主辦方把大家拉到一個群里,即時聊天,氣氛蠻活躍的,賽後也組織了排名靠前的選手到現場分享體驗,介紹一下自己的方法。kaggle一般是通過bbs,或者參賽選手的博客,可以沉澱下來。所以最後的結果是,參加天池比賽的時候挺開心的,認識了不少人。參加kaggle之後可以看更多選手的分享,技術上的收穫更大。

比賽的附加價值看,這些比賽都可以提升自己對大數據的感覺,這與純粹學習一些數據挖掘演算法的體驗是完全不一樣的。另外,參加過天池比賽對於應聘阿里有一些優勢。

真要說哪個好,肯定是因人而異的。可以都去看看,選個自己喜歡的話題,如果有實力的話可以注意一下獎金。


自從天池比賽剛剛出來,就一直伴隨著這個話題,各種MachineLearning群,都會在不經意之間談論天池和Kaggle。個人覺得這兩個比賽區別在於如下:

1、天池比賽的第二賽季,提供計算平台,可以解決選手們的計算資源不均衡問題。Kaggle上的一些大數據問題,只有土豪課題組的學生們能玩得起,而天池星一視同仁,還學生們平等競爭的機會。

2、阿里巴巴為天池的獨家主辦單位,比賽獎勵可以與阿里巴巴人才系統掛鉤而Kaggle僅僅是一個比賽平台。Kaggle比賽很少由超過1000隊參賽的,但是天池比賽動則大幾千參賽隊,參加Kaggle比賽的都知道不是前三的拿不了獎金,

而參加阿里星比賽的,知道前50會減輕就業壓力,這個是一個巨大的優勢,有這個優勢天池的參賽質量將一年大於一年。

3、阿里巴巴本身具有大量的優質數據集,而Kaggle沒有。

4、Kaggle發布一條比賽很容易,註冊一個賬號,經過一些審核就可以,但是天池星比賽每一個都會經歷內部大量流程和準備過程。即Kaggle上的比賽更多樣化,而天池星的比賽更加精緻。

5、Kaggle比賽大量和國際會議,各領域研究單位結合,在學術意義上更受認可,而天池星比賽卻難以脫掉商業比賽的出身。

當然隨著天池的一歲一歲長大,天池比賽會更成熟更多樣也會慢慢具有學術價值。如果你為了就業國內互聯網選擇天池,如果你為了學術意義或者免費出國開個會啥的選擇Kaggle或者各種conference cup,如果你相信中國會lead世界的DT時代,選擇國內的比賽!

加油天池!加油DT!加油China!


對於各種平台來講我算一個新人,7月份開始混跡各種比賽平台,也拿了幾個獎,算有一點心得。我這裡只說一下對於一個新人來說如何選擇。

首先是新手的適合程度

天池 &> DataFountain &> DataCastle &> kaggle &> 科賽

分享

kaggle的分享精神最好,100名之外一般都會有完整的代碼分享。而且比賽之後前幾名很多時候也願意把git分享出來。

天池的分享主要來自於官方,有答辯選手的視頻和部分代碼及一些採訪。而且按照目前的了解,天池在朝著更好的分享方向努力。

科賽的分享很不錯,集合了很多的比賽的分享結果。

DataFountain 和 DataCastle 的分享做的比較差,也許是因為他們只為了kpi做事情。

參賽者水平

kaggle的參賽者是全世界範圍,水平非常高。在裡面想拿到golden是相當的難。

天池是一個比較好的平台,越來越多的人知道,雖然基本聚集在國內和海外華人,但是的確也有很多高手在,所以質量還是很好的。

DC DF 比賽完全看運氣,有些比賽競爭非常低,有些還好。

科賽,目前名氣最低,所以整體水平比較低。

對於新手的友好度

kaggle 由於比賽過於專業,特別是數據量越來越大,而且沒有在線的平台,所以對於新手來說並不好。而且數據挖掘和普通工程類的代碼不一樣,只有代碼也未必能了解整體的挖掘思路。所以很不適合新手。

天池初賽的數據量都不大,複賽在天池的平台上操作,而且問題越來越實戰,更加適合新手入門。特別是還有新人賽,可以在正式比賽之前進行進行熱身。而且因為是國內的比賽,交流也更加方便。對於新人來說強烈推薦。

DataCastle 和 DataFountain 兩個都有 AB榜,所以公平性會更好,對於新手來說,更能體驗到對於過擬合的理解。只不過交流的熱情比較低,不太推薦新手入坑,而且因為不同比賽的水平不穩定,很難確定自己的實力。

科賽實際上還是一個有潛力適合新手的平台,不過目前由於參賽人員比較少,而且經常會被部分高手壟斷,所以不完全推薦新手入坑。當然由於參賽人員比較少,所以想要一個看起來排名還不錯的成績,這裡最適合了。

接下來從比賽專業度

kaggle &> 天池 &> DataFountain &> 科賽 &> DataCastle

這裡面很多人會認為DataCastle 不至於排在最後,而我這個排名實際上更多的來源於對於比賽的態度。

Kaggle 是比賽之前對數據處理最好的比賽,雖然也會出現一些小問題,但是勇於承認。

天池 的比賽除了舉辦方態度很認真外,而且題目越來越偏向實戰。

DataFountain 的 AB 榜制度和實時評測,包括對於數據的增量準備都是不錯的。

科賽實際上是一個創業團隊做的比賽平台,雖然和前面三個比,專業程度沒有那麼高,但是態度非常的認真,對於出題方出現的問題,處理的態度比出題方還著急,而且幫忙處理儘可能多的問題。

DataCastle 實際上並沒有那麼不專業,但是這裡面為什麼要把他排在最後,就是因為官方對於比賽的態度很不熱心。同時對於自己的錯誤,不敢承認,而且沒有任何專業性的應急方案,所以排在了最後。


樓上各路大神分析得太全面了,我就俗一點,天池大賽的獎金是最多的!天池大賽的獎金是最多的!天池大賽的獎金是最多的!


國內平台除京東外,基本無視cheat行為。就這一點,就不值得參加。

那些所謂的前10,前20,甚至前3,沒作弊的不多。ijcai,kdd,電力預測這三個認真參賽並持續跟進的,應該都懂。

最後我想說,b榜也開放提交一周的行為,是真tm的扯淡。這種行為只能照顧到極其稀少的頂尖玩家和那些不要臉的玩家,而置眾多前50的玩家於不顧。

說不定回答問題的就有呢,呵呵。

更新:

為什麼很多國內拿過獎的人,第一次去kaggle玩,成績刷的老高,最後就是被取消成績呢?樓上幾位利弊分析的眼花繚亂,就是巧妙的避開了作弊這一現象。


想學習的話,就多混Kaggle,畢竟天池如果敢共享代碼(賽中),直接就槍斃了。。

想工作的話,就混天池,畢竟Kaggle在國內影響力度小。。能說很多面試你的人可能Kaggle是什麼都不知道么

而且Kaggle對數據的分析是更到位的,即使是所有的匿名特徵,但是很多還是需要自己分析的。有點不完全同意樓上所說Kaggle上是xgboost調參,看看論壇,你會知道當你用模型融合還在幾百名混的時候,別人單模型已經穩穩地前10了,你才會知道和大神的差距,這還僅僅是分析數據之後的差距,所以還是有很多可以學習的。天池的比賽,說真的就是主要考察Domain Knowledge,以及你的靈機一動,想到的好的特徵。


江里星已經答的很充分了~我在補充一點:

kaggle上有一個專門便於分享代碼解決方案思路的討論區,這樣做有很多好處:

1 新手們有很多不同基礎代碼的參考。這對於入門而言是最簡單有效的,同時也能調動大家的積極性。

2 比賽過程中,會有很多優秀的代碼解決方案公開出來,大家互相學習,真正形成了所有人共同協作更好地解決問題,而不是各隊做各隊,只有一些部分的交流。這樣能使該問題的解法提高到一個很高的水準,甚至可以實用。實際上這才是最終的出發點,而不是簡單比一個名次。

天池在很多方面都具有優勢,但在這一點上可以向kaggle學習一下,真正變成一個眾人共策解決問題的平台~


我做過DataCastle的比賽和天池大賽。DataCastle只能通過下載數據,離線計算,由於數據量級太小,價值不高,成績的高低很受運氣的影響,我當年做DataCastle的比賽時身份驗證很簡單,所以容易作弊,現在好像有點改善;天池大賽中的數據量比DataCastle大得多得多,有很高挖掘價值,評測的成績更可信,而且天池大賽提供數據開發和演算法平台,為參賽者提供了極大方便,尤其是其工單系統,遇到任何問題都有工程師及時解決。就比賽獎金來說,天池也比DataCastle高很多。建議大家有時間多參加天池的大賽,雖然學習使用ODPS一定成本,但是一旦入門,就可以享受其中了。最後我反覆思考決定說下,我曾在DataCastle中,辛苦兩個月獲得過評分第三,但是人家直接郵件告訴我,考慮了演算法創新型等因素,決定我們是成功參賽獎,連答辯機會都沒給。而評分在我們後面的隊伍之後去答辯,答辯過程不公開,各隊方案不公開,但是只要去答辯,每隊至少一萬獎金。以上請各位參考。


國內平台呢,剛好參加了京東金融的比賽,配合最新匿名的回答,京東比賽照樣也有人作弊,而且能進決賽。

比如,信貸那題決賽時候,第二和第三聯合舉報第一的隊伍3個人在初賽時候分別有提交,最後再合隊伍,這明顯違規。

再比如,登錄風險那題,第一是第四範式的,第二是交通銀行信用卡的。然後第四範式再中標交通銀行的項目。然後微信群里第四範式的人都承認了,他們在支持客戶參加比賽。最後排名第二的交通銀行的隊長,根據B榜比賽人數(806人)和那個隊伍隊長昵稱,以及決賽結束人數(807人)以及隊長昵稱換了,所以得出第四範式有人幫助交通銀行拿了第二,這個結論很顯而易見,而且已經承認支持客戶了。


參加過幾次天池大賽,也關注過Kaggle和DC

個人認為天池大賽的有以下優勢:

1、能接觸到企業級別的大數據。這是很多別的競賽所沒有的,也是學校里一般的實驗室接觸不到的。

2、提供了大數據處理平台,大大降低了參賽門檻。參賽者不需要搭建集群,也不需要安裝hadoop就能玩轉大數據,雖然學習平台的使用需要花一定的精力,但是藉助平台文檔、新手入門帖,入門視頻等資料,相信大部分同學都可以快速上手。

3、提供了演算法平台,進一步降低了參賽門檻。演算法平台的模型都是可以靈活配置,支持連線,拖拽等操作,速度也比較快,還是相當贊的。

4、獎金、禮物、招聘綠色通道等各種激勵機制,使選手們有更多的動力。

同時,我認為天池大賽的不足在於:

1、天池平台雖然為使用者帶來了很多方便,但是平台提供的模型畢竟有限,參賽者如果想自己編寫模型則可能相當繁瑣,Kaggle和DC的比賽則可以有更加靈活的模型設計和演算法思路。

2、Kaggle的論壇比較活躍,思路分享和代碼分享很多。這點天池起步稍晚,相信以後可以做好。


只賽過kaggle,運算量大可以用amazon的雲伺服器,按小時收費挺好的


推薦閱讀:

用R語言的公司多嗎?
SVD 降維體現在什麼地方?
随机梯度下降是坐标下降的一种?
國內真正的大數據分析產品有哪些呢?只求乾貨爆料,不要廣告商!
最近开始学习机器学习,不知道看哪本书比较好(PRML ESL or MLAPP)?

TAG:數據挖掘 | 數據分析 | 大數據 |