不得不知的數據競賽之「最」——最全數據競賽匯總
一互聯網企業應用大數據競賽進行宣傳吸收優質人才
1.阿里巴巴天池
最大規模、最「老字號」國內數據競賽
天池的由來:
「天池」是阿里雲旗下的大數據平台的名字。
2014年3月,馬雲爸爸在北京大學發起「天池大數據競賽」。由此,阿里天池成為國內最早一批舉辦數據競賽的組織。
首屆天池大賽共有來自全球的7276支隊伍參賽,海外參賽隊伍超過148支。阿里巴巴集團為此開放了5.7億條經過嚴格脫敏處理的數據。
天池亮點:
處理龐大的數據量往往需要配製好的PC作為支持。對於沒有條件追求好配置的參賽者來說,這無疑是一個不利因素。然而天池競賽最特別的地方就在於為選手提供了遠程計算平台,即分散式計算平台。對於資源相對較少的同學而言,不僅加快了代碼的運算速度,也增加了他們使用分散式計算平台的相關經驗。
賽題分類:
從14年至今,天池一共舉辦過4界大數據競賽,共31場。
每界按照數據量大小和賽題的難易程度分為不同賽季,用以甄選優秀的參賽選手。根據阿里旗下不同的服務產品,每次比賽的主題和數據集也五花八門:淘寶穿衣搭配演算法(2015年賽題),螞蟻金服資金流動預測(2015年賽題),阿里音樂流行趨勢大預測(2016年賽題);也有由第三方平台提供的數據:交通數據模擬減輕道路擁堵(2014年首屆賽題),市民出行公交線路預測(2015年賽題),白雲機場客流量分析及預測(2016年賽題),新浪微博互動預測(2015年賽題)等。
面向人群:
在校學生、科研單位、互聯網企業、創業團隊等人員均可以個人或組隊形式報名參賽,每組上限3人。
獎項設置:
根據每一季賽題以及數據提供方的不同,獎項設置略有不同,最高總獎池曾到達過38萬。除了現金這種簡單粗暴的獎勵方式,天池還以優秀競賽者(大多為高校在校學生)可以直接進入阿里巴巴集團終面、抵扣Udacity相關課程學費、贈送電腦手機等方式鼓勵參賽者參與競賽。
互惠雙贏:
選手在虛擬機上的所有操作都是在阿里的眼皮底下進行的,所以對阿里而言,他們在不斷吸收學習、集思廣益著競賽過程中創新的優質演算法。對於學生而言而言,競賽的過程本身就是不斷學習進步的過程,鞏固了自己的知識架構,同時也積累了做項目的能力,為將來的事業打下一定基礎。
賽事主頁:天池大數據競賽_競賽平台_海量數據_演算法
2. 騰訊社交廣告演算法大賽
最新新勢力 第一屆大數據競賽
簡介:
由於騰訊才剛開始舉辦活動,相關的資料內容較少。但是第一屆他們就把自己的核心數字廣告業務作為競賽的話題,可謂賺足眼球。根據官方的描述,社交廣告演算法大賽主要面向高校大學生,希望參賽者通過對騰訊最核心的數字廣告業務中海量社交數據進行分析後,找到最有效的演算法解決方案。
本次大賽從4.12開始至五月底均可接受報名。
面向人群:
只面向在校學生,公司或相關業內從業人員可參與比賽但暫不參與評獎。
獎項設置:
雖然是第一次舉辦大數據競賽,但是騰訊相較阿里也不甘示弱,直接給出了一等獎30萬RMB,二等獎10萬RMB以及三等獎5萬RMB的現金鼓勵。同樣,優秀的參賽者應徵騰訊的工作崗位時也有綠色通道優待,免除筆試考核。
賽事主頁:大賽主頁 - T派
3.百 度
最學院派聯合,打造最「大」數據競賽
簡介:
「十億數據有多大?如果把人們每天讀取與獲得的文字信息按照A4紙的篇幅來計算,假設一個人一天的閱讀量是20頁,那麼一個人平均每天從各類渠道中所總共可以獲得大約20000字的信息量,那麼十億條文本數據則相當於一個人約2596年時間所獲取的信息數量。」
不同於向社會開放的數據競賽,BAT中的最後一家百度目前行事低調。唯一能找到的便是2015年與西安交大聯合創辦的「百度&西安交通大學大數據競賽」,希望用十億條數據實現學界和業界的資源共享。
二專業數據競賽平台
4.數據城堡(Data Castle)
最像Kaggle的數據競賽平台
簡介:
數據城堡的創始人,周濤,是成都電子科技大學教授,著名暢銷書《大數據時代》譯者。
數據城堡(Data Castle,以下簡稱DC)在2014年9月正式上線,在電子科大內引起巨大反響後,國內其他各個高校的學生也積极參与其中。DC和Kaggle十分相似,有各種各樣的數據競技比賽供選擇。大家可以通過篩選自己感興趣的話題,以個人或者團隊的形式參賽,上傳自己的代碼並參與排行。獎勵規則也與Kaggle相似,有現金作為直接激勵,優秀參賽者也可能獲得著名公司的數據崗位offer。作為專業數據競賽平台,DC上比賽的數據量雖然不及天池,但他們仍然積極保持有持續的競賽在展開。
賽題分類:
DC上競賽題目的類型都和實際生活息息相關,大致可以分為三類:交通類,教育類,金融類。
- 交通類:計程車GPS數據、樓盤數據、微博簽到數據、交通事故數據、公交線路數據、運營商GPS數據、天府通打卡數據(成都的交通卡)等
- 教育類:高校學生相關的生活消費數據、圖書借閱數據、成績數據、助學金數據、打卡門禁數據等
- 金融:用戶屬性數據、用戶瀏覽行為數據、銀行流水數據、信用卡賬單數據、招標數據、工商數據、成都市企業信息及分布數據。
DC亮點:
和Kaggle類似,DC上也有一個社區論壇,在那裡大家可以交流自己寫的code,交流技術問題或者認識一些志同道合的朋友。截止現在,DC共發起超過4萬9千多個比賽,有超過3萬個參賽者參加。
賽事主頁:首頁-DataCastle大數據競賽平台
三勇敢上傳自身數據尋求幫助
5.Talking Data
最大膽,數據上傳到Kaggle網站並尋求在美業內人士幫助
簡介:
2016年7月,由TalkingData主辦的「全球演算法大賽」於北京時間7月11日正式拉開帷幕,全球共有超過1600支隊伍,約1900名選手報名參賽,總計進行了8450次提交,其中包含了超過1700次代碼公開以及大量分析成果(kernel)的展示,獎金高達2萬5千美金。
中國是全球最大的移動市場,每天有超過 5 億台的移動智能終端被活躍使用。Talking Data作為中國最大的獨立第三方移動數據服務平台,其擁有的人口屬性可以說是最最重要的數據之一。將國內的數據直接上傳於Kaggle,不僅是一個大膽的舉動,也讓參賽者能夠有機會在全球數據科學最高水準平台與業內專業人士合作、交流、同台競技。
數據應用學院也參加了本次競賽,並在比賽中獲得金牌一枚,銀牌及銅牌若干!
四其他平台
6.上海開放數據創新應用大賽(SODA)
最官方,由政府企業主辦的開放類數據大賽
數據內容:
道路事故數據、犯罪統計數據、重點污染檢測、實時雨量、水廠水質監測、食品抽檢結果、餐飲處罰數據等民生類開放數據。
賽事主頁:SODA上海開放數據創新應用大賽
推薦閱讀:
※怎麼理解馬雲說的DT時代的「利他」 ?
※R語言之數據管理
※UCSD 2017秋季數據科學項目閃亮登場!
※我們在可視化什麼?
※伊朗是威脅海灣國家安全的罪魁禍首?海灣民眾:我們不信
TAG:数据 |