如何評價AI Challenger的比賽結果?

希望可以有進入答辯的隊伍在這裡分享一下各自隊伍的方案


被@了。我覺得captioning賽道挺好的啊。反正我聽別的選手講覺得超有收穫!!!

基本上可以說我最水了,沒有花太多精力在這個上面。其他組感覺比我都認真多了。。

嗯,很享受答辯的過程~~~~認識了很多創新工場的小夥伴~~~~~~

方案差不多在這(不務正業參加競賽的超簡單技術報告(AI Challenger圖像描述第三名),寫的很隨意),演算法很簡單,也已開源~

https://github.com/ruotianluo/Image_Captioning_AI_Challengergithub.com


可恥的鄙視一下自己,設備太爛,比賽都完了,模型還沒有訓練出來。。。。。。。。。


關注一下,參加了翻譯比賽,成績倒數。

用百度翻譯了一版成績0.24,好奇第一的0.42是如何做到的。


參加了image caption 的,A榜有幸進了前五,可能調參調的不好。。 最終B榜出了前五。 沒能參加成答辯, 其實方法都差不多。幫你 @羅若天 大神


參加了兩個翻譯賽道,結果很戲劇。兩個賽道的訓練集和測試集都存在很大的問題。浪費了幾個月的時間,真是

————————————

訓練集本身沒有問題,只是主辦方發布了兩次不同的訓練數據集,重新發布的時候大部分團隊沒有接到通知。而第一次發布的訓練數據和兩個文本翻譯賽道測試集(A B)都有1000+句重合,導致不同隊伍的測試集結果榜單沒有可比性。最後主辦方又臨時改變策略,去掉了重合的部分重新評估,很混亂。

測試集的問題一個是上述的文本翻譯賽道數據重合的問題。還有一個問題是同聲傳譯賽道測試數據太少(只有900+句),無法真正的評估翻譯性能,一個極端的情況是請英語專八的同學來人工翻譯,性價比很高啊=_=,我搞不懂的是既然獎金都出這麼多了(40w),為何不再多花些錢擴大測試集呢?

總的來說,雖然存在各種瑕疵,這個數據集確實規模較大,而且是口語領域,對於中文翻譯圈來說是一個較大的contribution,現在中文翻譯缺乏一個好的benchmark,這個數據集有希望成為第一個benchmark。

第一屆主辦方可能缺乏評測組織經驗,希望下一屆比賽主辦方能多注意這方面的問題。另外,獎金真的很豐厚,這點必須點贊!


推薦閱讀:

你想刁難的是哪個胖虎?
DeepTraffic:在線訓練AI開車
怎麼評價中科大發布的中國首台特有體驗交互機器人?
用人類自身的思維來完全理解自身,在邏輯上有沒有這種可能?

TAG:人工智慧 | 自然語言處理 | 計算機視覺 | 神經網路 | 深度學習DeepLearning |