如何評價AI Challenger的比賽結果?
希望可以有進入答辯的隊伍在這裡分享一下各自隊伍的方案
被@了。我覺得captioning賽道挺好的啊。反正我聽別的選手講覺得超有收穫!!!
基本上可以說我最水了,沒有花太多精力在這個上面。其他組感覺比我都認真多了。。
嗯,很享受答辯的過程~~~~認識了很多創新工場的小夥伴~~~~~~
方案差不多在這(不務正業參加競賽的超簡單技術報告(AI Challenger圖像描述第三名),寫的很隨意),演算法很簡單,也已開源~
https://github.com/ruotianluo/Image_Captioning_AI_Challengergithub.com可恥的鄙視一下自己,設備太爛,比賽都完了,模型還沒有訓練出來。。。。。。。。。
關注一下,參加了翻譯比賽,成績倒數。用百度翻譯了一版成績0.24,好奇第一的0.42是如何做到的。
參加了image caption 的,A榜有幸進了前五,可能調參調的不好。。 最終B榜出了前五。 沒能參加成答辯, 其實方法都差不多。幫你 @羅若天 大神
參加了兩個翻譯賽道,結果很戲劇。兩個賽道的訓練集和測試集都存在很大的問題。浪費了幾個月的時間,真是
————————————
訓練集本身沒有問題,只是主辦方發布了兩次不同的訓練數據集,重新發布的時候大部分團隊沒有接到通知。而第一次發布的訓練數據和兩個文本翻譯賽道測試集(A B)都有1000+句重合,導致不同隊伍的測試集結果榜單沒有可比性。最後主辦方又臨時改變策略,去掉了重合的部分重新評估,很混亂。
測試集的問題一個是上述的文本翻譯賽道數據重合的問題。還有一個問題是同聲傳譯賽道測試數據太少(只有900+句),無法真正的評估翻譯性能,一個極端的情況是請英語專八的同學來人工翻譯,性價比很高啊=_=,我搞不懂的是既然獎金都出這麼多了(40w),為何不再多花些錢擴大測試集呢?
總的來說,雖然存在各種瑕疵,這個數據集確實規模較大,而且是口語領域,對於中文翻譯圈來說是一個較大的contribution,現在中文翻譯缺乏一個好的benchmark,這個數據集有希望成為第一個benchmark。
第一屆主辦方可能缺乏評測組織經驗,希望下一屆比賽主辦方能多注意這方面的問題。另外,獎金真的很豐厚,這點必須點贊!
推薦閱讀:
※你想刁難的是哪個胖虎?
※DeepTraffic:在線訓練AI開車
※怎麼評價中科大發布的中國首台特有體驗交互機器人?
※用人類自身的思維來完全理解自身,在邏輯上有沒有這種可能?
TAG:人工智慧 | 自然語言處理 | 計算機視覺 | 神經網路 | 深度學習DeepLearning |