AI Challenger開賽,千萬量級數據開放,AI高手將上演巔峰對決

2017年9月4日,「AI challenger全球AI挑戰賽」正式開賽,來自世界各地的AI高手,將展開為期三個多月的比拼,獲勝團隊將分享總額超過200萬人民幣的獎金,並獲得頂級AI專家的指導。

大賽官網(challenger.ai)同步上線了訓練數據集以及驗證數據集,供參賽選手下載,進行演算法設計、模型訓練及評估。

參賽團隊來自世界各地,包含多位國際頂級AI賽事冠軍

「AI Challenger全球AI挑戰賽」是由創新工場、搜狗和今日頭條三家國內人工智慧領域領軍企業共同發起的競賽活動,面向人工智慧領域科研人才,致力於打造大型、全面的科研數據集與世界級競賽平台。

自8月14日開放報名以來,AI Challenger平台已經匯聚了來自世界各地的參賽者。

來自高校的包括中國清華大學、北京大學、中科院、上海交通大學、復旦大學、中科大、香港科技大學、香港中文大學、台灣大學,美國康奈爾大學、喬治亞理工、紐約大學,英國劍橋大學、帝國理工學院,德國卡爾斯魯厄大學,法國國立路橋學校,澳洲卧龍崗大學,日本早稻田大學。

來自公司機構的包括百度、螞蟻金服、小米、搜狐、奇虎360、眾安保險、平安科技、同花順、陌陌、迅雷、中興通訊、中國移動、中國電信、格靈深瞳、馭勢科技、摩拜,微軟、通用電氣、英特爾、eBay、Micron、法國巴黎銀行,還有神秘的公安部院所。

參賽者中也不乏曾經在各種大賽上叱吒風雲的牛人,比如天池阿里移動推薦演算法大賽冠軍、滴滴DI-tech演算法大賽冠軍、ImageNet目標分類任務和定位任務雙料冠軍、中興演算法精英挑戰賽冠軍,IBM-滴滴編程馬拉松大賽冠軍,以及Kaggle大賽的眾多優勝者。

開放千萬量級科研數據集

本次大賽提供了百萬量級的計算機視覺數據集、千萬量級的機器翻譯數據集,包括:超過1000萬條中英文翻譯數據、70萬個人體骨骼關鍵點標註數據、30萬張圖片場景標註和語義描述數據。這是國內迄今公開的規模最大的科研數據集,已經在大賽官網(challenger.ai)上線,供參賽選手下載,進行演算法設計、模型訓練及評估。

(1)人體骨骼關鍵點數據集:此數據集是目前規模最大,場景、人物動作及身體遮擋情況最複雜的數據集。它使用含有人物的圖片,對人體14個骨骼關鍵點分別作出標註,共有30萬張圖片,包含了超過100種複雜生活場景內的實際人物動作與姿態,標註人物個數達到70萬量級,遠超過MSCOCO的10萬人、以及MPII的4萬人量級。該數據集將挑戰現有主流演算法的魯棒性。

基於此數據集的研究成果可以被直接應用於動作分類和識別,動作捕捉,圖像和視頻內容理解,人機交互,自動駕駛(行人動作和意圖識別),安防(異常行為檢測),無人零售(消費者行為理解)等領域。

(2)圖像中文描述數據集:此數據集是目前規模最大、場景和語言使用最豐富的圖片中文描述數據集,共有30萬張圖片,150萬句中文描述,使用了超過100種複雜生活場景的含有人物的圖片,而且此數據集的語言描述標註更符合中文語言使用習慣。相對於MSCOCO和Flickr8k-CN,在完整描述圖片主體事件的基礎之上,該數據集創新性的引入了形容詞和中文成語,用以修飾圖片中的主要人物及背景事件,大大提升了描述語句的豐富度。本數據集的標註量遠大於Flickr8k-CN(8000張圖),巨大的數據量和複雜的圖片場景將直接挑戰現有演算法的可用性。

基於此數據集的研究成果可以被直接應用於圖像與視頻語義理解、圖像與視頻自動標註、圖像與視頻內容檢索、人工智慧輔助教育、機器人視覺、盲人輔助等人工智慧相關領域。

(3)英中翻譯數據集:此數據集的訓練數據量達到1000萬句對,每一條數據由一句英文和對照的中文構成,是最大規模的口語領域英中比賽數據集。訓練數據全部經過譯員檢查和矯正,句正確率在97%以上,英中雙語句對對照工整、質量高、噪音低。

基於此數據集的研究成果可以被直接應用於機器翻譯,尤其是口語機器翻譯、同聲傳譯應用。

開放數據集能給AI人才帶來什麼幫助?

在人工智慧領域,數據的質和量是科學研究與產品技術研發的核心。高質量訓練數據對機器學習模型的建立和優化有關鍵性的作用。建立大規模、高水準的標註數據集,是推動AI科研和技術前進的驅動力。

創新工場、搜狗、今日頭條三方在「AI Challenger 全球AI挑戰賽」發布會上共同宣布社會責任宣言說:「數據、演算法、計算能力是人工智慧的三大基石,其中,數據更是人工智慧科研最寶貴的資產。沒有足夠好的數據,就無法取得世界頂級的科研成果。在此方面,學術界和創業團隊所能獲得的數據資源通常遠少於產業界中的頂級企業。因此,將高質量的數據集建設與科學研究、技術產品研發、人才培養有效結合,對人工智慧發展具有重大意義,也是身為產業先驅應盡的一份社會責任。」

未來三年,主辦方將投入數千萬基金,解決數據集缺失的問題,為人工智慧科研提供海量數據及演算法競賽、人才交流平台,輔以強大的學術界和產業界專家指導,全力支持與幫助國內外的高校、研究機構、產業界的研發團隊。

三家主辦方將持續投入,建設和發布更大規模的AI前沿領域高質量數據集,涵蓋自動駕駛、智慧醫療、智慧金融、機器人等行業應用中的核心AI需求,主辦世界級的年度AI競賽,吸引世界範圍內的高端AI人才,促進人工智慧科研生態的持續健康發展。

大賽獎金超200萬,還有頂級專家評委助陣

主辦方為首屆競賽準備了超過200萬元人民幣的獎金,供參賽優秀選手分享。參賽選手還有機會進入三家主辦方工作、實習或獲得投資,並有機會在國際頂級學術會議上分享獲獎心得,還將獲得包括上海科技大學教授馬毅、曠視科技首席科學家孫劍、前Google研究院高級管理科學家林德康等十餘位國內外人工智慧領域頂級專家評委的指導和評價。

本屆AI Challenger大賽的主賽道競賽分別是:人體骨骼關鍵點檢測競賽、圖像中文描述競賽、場景分類競賽、英中機器文本翻譯競賽、英中機器同聲傳譯競賽。大賽還在持續推出更豐富的實驗賽道、實驗數據集,敬請關注大賽官網(challenger.ai)

賽程安排如下:

  • 9月4日10:00,開放訓練數據集以及驗證數據集。
  • 10月31日23:59:59,大賽報名截止。
  • 12月3日23:59:59,各項競賽的排名將決定最終的成績排名。
  • 12月中旬,大賽主賽道各項競賽的最終榜單排名前五的團隊將受邀到現場答辯並參加頒獎典禮。

大賽期間,主賽道及實驗賽道還將有雙周賽或單周賽並有獎金。

推出首個實驗賽道:虛擬股票趨勢預測

為了讓大賽有更高的參與度,同時探索更前沿的AI科技,本次大賽將持續推出更豐富的實驗賽道和實驗數據集。AI Challenger 的首個實驗賽道,是虛擬股票趨勢預測,通過對大規模歷史數據建模,預測虛擬股票未來趨勢,這個實驗賽道適合有大數據背景、深度學習的初中級人士參與。

發起這個實驗賽道的創新工場表示,金融市場是由大數據驅動的行業,也是最快速被AI衝擊的行業之一。金融及相關數據可以說是目前最容易獲得、最海量公開、也是非常適合用於機器學習的數據來源。此次以「虛擬股票趨勢預測」為題,通過開放數據集和競賽的形式幫助廣大興趣愛好者入手機器學習,作為AI Challenger第一屆大賽中相對低門檻的入門實驗賽道。同時,金融AI應用對於科研來說有一定的指導意義。例如,雖然機器學習是目前金融趨勢預測、量化投顧的趨勢,但基於傳統運籌學、統計學思路的方法也有其發展空間,創新工場成立人工智慧工程院以來接觸到的很多高校中,均有針對這個領域開展研究的老師。接下來三個月,實驗賽道在賽題中將公開的脫敏數據,將有助於這些研究者判別科研成果的價值,這個實驗賽道便是將大眾熟悉的真實場景和前沿科研技術相結合的一個重點嘗試。

對股票價格趨勢的預測是金融領域極為複雜和極為關鍵的問題。有效市場假說認為股票價格趨勢不可能被預測,然而真實市場由於各種因素的存在並不完全有效,這對於股票市場而言相當於一種「錯誤」。AI Challenger的虛擬股票趨勢預測實驗賽道,為參賽者提供了大規模的股票歷史數據,從而可以通過集合大家的智慧來糾正股票市場的這些「錯誤」。

本競賽數據來源主要以股票及新聞數據為主。競賽每周一輪。選手通過訓練模型,對虛擬股票走勢進行預測。每輪結束時統計該輪隊伍排名。最終累計每周積分決出最終的大獎。冠軍將獲得5萬元人民幣的獎勵。同時,每周都會對該輪排名前三的隊伍頒發獎金。該實驗賽道由創新工場發起、管理和運營,獎勵由創新工場提供。

另外,大賽主辦方還將努力為條件有限的參賽選手提供免費GPU資源的支持,幫助他們圓夢AI,選手可在各賽道相關數據集下載的頁面進行申請。此次同步上線的還有彙集了全球優秀AI技術學習資源的「教程」欄目,並將持續更新,幫助AI人才更好學習成長。

在此特別感謝大賽AI GPU雲合作方UCloud專門為AI Challenger大賽組織資源、技術開發和服務團隊,幫助更多的AI人才能夠實際動手利用大數據集進行實踐。特別感謝在線教育合作方Udacity為大賽提供優質學習資源,並向全球AI人才推薦AI Challenger大賽。還有更多高校、機構、公司、個人為大賽提供了各種各樣的幫助,讓AI Challenger獲得了大量的資源和支持,從而能更好的幫助更多的AI人才。深深地感謝這些貢獻者們!

科研大數據,智慧競技場!快來challenger.ai學習、參賽吧!

小提示:比賽組隊、參加每周AI技術大神分享會,請加大賽微信小助手 aiczhuhou ,或掃碼加入大賽官方微信群!

aHR0cHM6Ly91LndlY2hhdC5jb20vRU9QUGV1Zk5zTFh2NlBwT0liUVl0cUU= (二維碼自動識別)

推薦閱讀:

吳鷹:人工智慧不是泡沫太大,是泡沫不夠
口紅色號花樣頻出,有個科學家用 AI 輔助命名
學界與工業界的AI研究:有哪些重要不同?
10個表示你該部署AI的標誌—但不一定成功
厲害了我的哥,這個路由器竟然能讀懂你的喜怒哀樂

TAG:人工智能竞赛 | 数据集 | 人工智能 |