國內數據挖掘比賽有哪些?
請各位大神指點。
2009年9月21日,一場歷時三年的數據挖掘角逐終於落下帷幕。Netflix把百萬美元頒發給一個7人研究小組,用於獎勵他們把Netflix推薦系統的性能提高了10%(Netflix Prize: Home)。2010年,kaggle平台(Your Home for Data Science)成立,為企業和數據挖掘人才建立起了橋樑:企業可以在平台上發布任務,懸賞吸引各路英豪,通過眾包的方式解決建模問題;而參賽者則可以接觸到豐富的真實數據,解決實際問題,造(zhuan)福(dian)人(xiao)類(qian)。到今年,似乎大大小小的科技公司都看上了這種方式,這裡就來簡單盤點一下最近的數據挖掘大賽。
學生黨性價比最高的比賽:騰訊社交廣告高校演算法大賽
參賽鏈接:大賽主頁 - T派
報名截止:5月31日
獎金指數:
數據指數:
難度指數:
優勢:獎金豐厚、獎勵力度大、TOP20隊伍獲得校招綠色通道。
劣勢:僅針對在校學生,參賽對象範圍較窄,不過這對於學生黨也算是優勢哦。
騰訊的社交廣告是騰訊公司的第二大收入來源(僅次於騰訊遊戲),騰訊這次把生金蛋的鵝拿出來溜溜也是誠意滿滿。從獎金看非常有吸引力,第一名30萬人民幣(還很「心機」地強行給指導老師發獎,冠軍的指導老師送MacBook Air),就連第十名也有1萬元的現金獎勵,這樣的獎勵在以往的比賽中也是比較少見的。
這項比賽提供了騰訊部分用戶在一個月里的廣告點擊行為和App安裝行為,希望預測用戶點了App廣告之後,是否會進一步下載並打開(轉化)。從題目看,可以說這是一個上手容易,做深難的問題。對於入門級的選手,現有的豐富特徵已經可以快速跑出一個還不錯的結果,也方便做各種機器學習工具的嘗試。而要做深,可能就要仔細考慮App安裝行為怎麼建模了。同時這項比賽的數據規模也是同期賽事中最大的,決賽階段還需要考慮如何在幾億條數據的規模下調參。
比較可惜的是,這項比賽只限在校生參加,當然這對於學生是個很好的機會。無論對於想熟悉大數據競賽玩法的新手,還是對於想沖榜的大神,都非常值得一試。
老牌的比賽:KDD Cup 2017
參賽鏈接:KDD CUP 2017 | 賽題與數據
報名截止:5月25日
獎金指數:
數據指數:
難度指數:
優勢:老牌比賽認可度高,數據挖掘專家雲集的比賽,賽題新穎。
劣勢:獎金略少、競爭非常激烈。
KDD Cup是由美國計算機協會(ACM)旗下數據挖掘分會舉辦的年度賽事。自1997年開始舉辦至今已有20年。作為一個老牌的數據挖掘競賽,無論在學術界還是工業界,大家對這項賽事的認可度都非常高。這也吸引了全球頂級的數據挖掘專家前來參與其中,競爭非常激烈。從獎金來看,第一名6000美元的獎金並不高,但是奪冠能擁有的榮譽絕不是這6000美元所能比擬的。
今年的KDD Cup在阿里雲的天池平台舉辦,天池平台從2014年開始舉辦阿里內外的各種數據類賽事,已是一個比較成熟的平台。
這次的賽題需要選手基於歷史數據預測高速路口收費站的流量和通行時間。賽題數據規模並不大,約為幾十萬條車輛行駛記錄,不過由於數據的結構比較特別,牽涉到道路的拓撲結構以及天氣等各方面影響因素,要想做好也會比較有挑戰。
最有挑戰的比賽:滴滴-Udacity「無人駕駛」大挑戰
參賽鏈接:演算法大賽
報名截止:4月22日
獎金指數:
數據指數:
難度指數:
優勢:獎金非常豐厚、比賽具有極強觀賞性。
劣勢:參賽門檻較高、獎金梯度過陡。
滴滴自去年發力投入無人車開始動作頻頻,這項賽事也展示滴滴對無人車的投入。比賽的冠軍獎金是近期所有比賽中最高的,10萬美元,但是獎金梯度很陡,第二名就只有1500美元了。這樣的獎項設置會非常考驗Top參賽者的心理素質,也讓比賽變得很有觀賞性。
更有挑戰的是比賽的賽題,選手需要通過雷達、攝像頭採集到的數據,計算出障礙物的位置。採用的評價指標是學術界比較主流的Kitti標準。整體而言這是一個非常專業的問題,參賽門檻比較高,從比賽中途延長了一個月也可以看出這一點。
與其他比賽不同的是,這項賽事需要選手提交高效運行的代碼,而非僅僅是計算結果。演算法需要運行在無人車平台上,以每秒10次的頻率根據感測器傳來的數據實時給出定位結果。比較有意思的是,參賽團隊的代碼需要開源,期待重金之下的勇夫。
京東JData演算法大賽-高潛用戶購買意向預測
參賽鏈接:DF,CCF指定專業大數據競賽平台
報名截止:5月13日
獎金指數:
數據指數:
難度指數:
優勢:獎金豐厚、排名靠前選手可能獲得實習工作機會。
劣勢:賽題經典,競爭激烈。
京東作為國內最大的自營電商,精準的商品推薦演算法一直是其核心的技術。在這項比賽中,京東給出了部分用戶在歷史兩個半月里的收藏、購買等行為,希望預測未來5天里的購買情況。從數據看,題目屬於比較經典的推薦問題,不過比賽排名的指標是一個帶權重的F1值,如何優化這樣的目標會是選手遇到的一個挑戰。京東演算法大賽也給出了30萬的冠軍獎金,也給排名靠前的選手提供實習工作的機會,吸引力不小。
搜狐圖文匹配演算法大賽
參賽鏈接:Introduction
報名截止:5月12日
獎金指數:
數據指數:
難度指數:
優勢:賽題新、圖文匹配想像空間大、進入決賽者有機會獲得搜狐offer。
劣勢:獎金不算高,數據規模對於深度學習可能偏少。
搜狐為這項賽事提供了10萬條新聞及其配圖,希望選手給另外1萬條新聞找到合適的配圖。這場比賽是近期眾多比賽中深度學習最有希望發揮優勢的比賽,畢竟深度學習給圖片和文本的直接匹配留下了很大的想像空間。喜歡玩深度神經網路的朋友不妨一試。
前海徵信「好信杯」大數據演算法大賽
參賽鏈接:科賽 - http://Kesci.com
報名截止:5月10日
獎金指數:
數據指數:
難度指數:
優勢:比較難得的遷移學習數據競賽。
劣勢:獎金少、規模小、影響力略低。
前海徵信是平安旗下專業第三方商業徵信機構。比賽提供了4萬條信用貸的記錄以及4千條現金貸的記錄,希望選手對現金貸的信用評分模型進行建模,預測客戶是否會違約。這項比賽可以算是近期比賽中數據規模最小的,但也具有挑戰。選手需要考慮的並不是用多麼複雜的模型對數據進行建模,而是要用遷移學習的方法利用好4萬條相關數據,改進對4千條數據的建模。
-------------
除了上面介紹的這些賽事,華為(賽事介紹 | HUAWEI軟體精英挑戰賽)、攜程(科賽 - http://Kesci.com)也舉辦了類似的大數據賽事。此外,kaggle、天池、DataCastle這類數據競賽平台也會時不時地發布新的比賽。這些比賽的出現,其實對於多方都是有益的。
從學術發展的角度看,這些大賽幫助推進了演算法的進化。Netflix的比賽中,研究人員為了贏得比賽,創造性地使用了SVD模型求解推薦問題,此後又進一步提出了SVD++模型,這兩個模型到現在已經成為教科書般的經典。再比如KDD Cup 2011年的比賽中,上海交大和香港科大的聯合隊伍提出了SVDFeature模型,讓這類分解模型也可以比較方便地加入特徵。此後,在kaggle比賽中,Steffen Rendle用他的libFM模型橫掃天下,通過單一模型拿了無數的第二名(第一名都是融合模型)。前兩年霸榜各項大數據賽事的XGBoost以及最近的LightGBM,他們的作者陳天奇、柯國霖也都曾經是這些賽事的冠軍。
從企業的角度看,通過舉辦數據挖掘競賽,既能用較低的成本搜集新演算法,還能發現合適的人才。實際上互聯網企業舉辦比賽已經有很長時間的歷史了,除去那些創新設計類的比賽,最經典的可能就是演算法類競賽了,比如2005年就開始舉辦的百度之星。但是時至今日,舉辦演算法類比賽的企業已經越來越少了,這也是企業為了適應新的人才需求所作出的變化。
從參賽選手的角度看,參加數據挖掘競賽既可以提升自己的數據挖掘技能,又可以近距離接觸到企業的數據,無論是否拿獎,都會有不少收穫。近幾年有不少業界大拿也都是參加這類競賽入門的。特別對於學生黨,足不出戶就能「實習」的機會甚是難得。至於賽題的選擇,除了前面提到的那些,最重要的是看個人興趣,就如前面介紹的競賽涉及了廣告、無人車、徵信等多種不同的行業,或許未來的職業就開始於此。我參加過CCF(中國計算機學會)主辦的,WID承辦的大數據競賽。我參加的是第三屆,馬上一個要第四屆了。我參加了決賽,在中國科學院大學舉行的,獲得了二等獎,獎金很豐富(P.S. 我那個賽題一等獎5w,二等獎1w(一等獎一隊,二等獎三隊))。另外比賽也提供一些實習綠色通道!
下面是第三屆的一些信息,組織單位都很權威,也有很多院士、專家參與評審。
大賽組織機構
1)指導單位
國家互聯網信息辦公室網路數據與技術局
2)主辦單位
中國計算機學會
3)承辦單位
中國計算機學會大數據專家委員會、北京數聯眾創科技有限公司
4)戰略合作單位
清華大學、中關村大數據產業聯盟
5)合作單位
百度、中國聯通、中國移動、阿里、海量、亞信數據、中科曙光、華大基因、國雙科技、京東集團、華院數據、拓爾思、明略數據、中華網
● 大賽組織委員會主席
李國傑 中國工程院院士、CCF大數據專家委員會主任
梅 宏 中國科學院院士、上海交通大學副校長
田溯寧 中國寬頻資本基金董事長、亞信科技董事長
● 大賽專家委員會主席
李德毅 中國工程院院士、清華大學教授
徐宗本 中國科學院院士、西安交通大學教授
華雲生 香港中文大學常務副校長、IEEE/ACM/AAAS Fellow
李建中 哈爾濱工業大學教授、CCF大數據專家委員會副主任
● 大賽工作委員會主席
程學旗 中科院計算所研究員、CCF大數據專家委員會秘書長
吳甘沙 Intel中國研究院院長、CCF大數據專家委員會委員
張自力 西南大學計算機學院院長、CCF大數據專家委員會委員
周 濤 電子科技大學教授、CCF大數據專家委員會委員
朱明倫 易班CEO、總裁
從我得到的消息來看,今年的比賽應該正在籌辦過程中。而且他們有越辦越好,越辦越大的趨勢(不知道獎金會不會越來越多 XD)
另外附個網址吧,想參加的大神可以關注這個網站~WID|WeInData|首頁 我希望今年再戰一年,能再獲個獎=。= 比較享受比賽過程,從無到有的寫出程序,完成整個方案!
DataCastle(http://www.pkbigdata.com)上面蠻多競賽的呢~~活躍的競賽好幾個,獎金一般都若干萬,小女子技術渣傷不起。。
KDD cup
阿里這兩年辦的天池大數據競賽。
推薦閱讀:
※如何通俗地解釋貝葉斯線性回歸的基本原理?
※怎麼通俗易懂地解釋貝葉斯網路和它的應用?
※數據挖掘、機器學習、自然語言處理這三者是什麼關係?這幾個怎麼入門啊?
※參與大數據競賽應該看什麼書?
※kaggle上有哪些好的競賽項目?哪些適合入門,哪些適合進階