如何評價 2018 年的 Kinetics 比賽數據集出現重大疏忽導致泄漏全部標籤?

今年的Kinetics比賽數據集中的測試數據是按照label排序的,也就是說,通過最簡單無腦得方式就可以在該數據集上達到100%的準確率。(而且確實有人這麼做了)

Kinetics的比賽還有下一屆嗎?比賽主辦方(Google)和數據集承辦方(Deepmind)應負怎樣的責任?


謝邀。今年CVPR視頻分類比賽真是不太平,之前是Facebook耗費了&>1m標定的SOA數據集因為data privacy的問題不能按時放出來打比賽,現在是kinetics測試集標定泄漏。這種測試集標籤泄漏基本很難正常比賽了,就算不把測試集包含到訓練集里,相信也有人把測試集當成validaiton set來搜模型最優參數。

出門轉左。今年我們Moments in Time數據集也跟ActivityNet一起搞短視頻分類比賽,1million的短視頻數據mp4格式可以直接打包下載。比賽頁面見http://moments.csail.mit.edu/challenge.html。分Full Track和Mini Track。所以參加Kinetics比賽的同學也不用氣餒,數據一換過來跑一把咱們的Moments數據集也是挺好的。比賽截止日期已經延期到June 8。


Deepmind目前給出的答覆:

Yes, we managed to involuntarily make it available in 2 different ways :-). We will email all the participants tomorrow about this, but most likely, following standard academic practice, we will simply trust that people do not train on the test set.

感覺比賽涼涼

——————————————————————————

有朋友在做這個比賽,心疼他們一秒鐘。

個人想到兩個不完美的應對方案:

1)要求參賽隊伍提交代碼(這樣的話,很多公司的參賽隊伍估計不會參與排名了把)

2)可以把現有測試集取一個子集,重新打亂給上隨機的名字,直接放網盤供大家下載(不知道這樣會不會有版權問題,而且這個方法也只能防君子(lll¬ω¬))


補刀,不只是測試集label有規律。發布的兩個版本的數據集都有問題。總而言之,deepmind在這個項目上的態度非常不認真。

除非發布新的測試集,否則成績肯定不可比,因為無法檢查是否用過groundtruth


在此之前就發布了一個錯誤的訓練,驗證跟測試集合。有一半的驗證集合數據出現在訓練數據中。折騰了一個禮拜發現官方重新進行了數據劃分。。。

然後,又發現新劃分的測試集有一半包含在之前錯誤劃分的訓練跟驗證集合,相當於已經泄露了一半的標籤。。。而且之前訓練的模型全部需要丟棄。。。而這一次有人發現整個標籤都泄露了。。。

我也對他們真是無語了!不過之前我發現有一半的標籤泄露的時候給組織者發過郵件,他們的回復是: 相信參賽者不會作弊。

反正我覺得大家應該會自覺的,我是一直堅持不使用測試集的標籤進行任何調參的。


如果無法給出一個令人信服的說法,Kinetics視頻行為分類比賽真的沒必要進行下去了。

眾所周知,視頻動作分析領域影響力最大的賽事是ActivityNet吸引著很多國內外科研機構參加。「Kinetics視頻行為分類比賽」作為ActivityNet「含金量」最高的任務,有400個動作類別,大約20萬訓練語料。

2018Kinetics 比賽數據集泄露全部標籤,造成了許多參賽者的不滿,比賽已經失去公平性。deepmind到現在都沒有給出一個令人滿意的說法,比賽已經延期,就是不知道會不會更改測試集。這種比賽本來就是君子才能參加的,通過作弊獲得100%的準確率,有什麼意思呢?!

就算更改測試集,參加比賽的選手估計積極性也不會太高。

現在,deepmind唯一能做的就是盡量保持參賽隊伍的公平性。


大家應該冷靜下來,自己跑出來的結果該是什麼就是什麼,畢竟之後要交technical report。

至於已經提交 100% top1 accuracy那位,拿出讓大家信服的一些方法說明就好。

有熟人,匿一個


今年的比賽真是不太平,隔壁wider pedestrian比賽換了好幾波數據還總是標不好,eval腳本慢出翔,心累。。。

https://www.zhihu.com/question/278086325



有沒有下一屆不好說

大型比賽數據以及測試出現問題其實挺常見的,在此就不列舉了:)

大家寫代碼bug也是迭代測試解決的,舉辦個比賽也很難一次性把方方面面都想到

但責任當然是要負的,只能儘可能保證各隊公平,但出了問題還想要絕對公平肯定是不可能的了


一天過去了,deepmind並沒有發聲明……

心疼自己最近這波翹課打比賽……


除了發布新的測試集,沒有其他辦法


看完一圈回答後學會了作弊新招!!!

真是不學不壞吶。 逃~


推薦閱讀:

TAG:谷歌Google | Activity | 深度學習DeepLearning | DeepMind | CVPR |