如何評價coco2017的結果和此類比賽的前景?

iccv上的coco workshop剛剛結束,相關結果也已經公布了。

keypoint challenge中,曠視拿下了第一,商湯第二。但是,如何看待如今此類比賽的前景?在imagenet已經結束的今天,在比賽中刷點數,對領域發展的提升會有多大?


利益相關:本人是face++ detection組的leader, 這次COCO

challenge主要負責detection(bbox)以及keypoint兩個任務。

先從detection講起,我們組的detection工作在一年之前,主要是基於fasterRCNN框架上面做一些hack,加更多數據來漲點。後面發現這條路有明顯的天花板。大概一年前,我們開始投入人力做一些最新研究成果的復現,比如從FPN,

MaskRCNN, 到最新的RetinaNet。可以認為是kaiming的大禮包。人力上面來講,一開始主要是lzm跟cyl兩個小朋友在弄。我們當時自己復現的FPN比paper都高1個多點。但是做了一段時間後,我們發現我們一直復現的話,永遠都走在別人的後面。就像足球比賽一樣,只依賴防守是不可能取勝的。所以漸漸的我們開始有意識探索一些我們自己的演算法。當然,我們組小朋友的戰鬥力是非常強的,比如,所有的復現我們都能第一時間復現出來,同時我們有更高的結果和一些新的認識。隨著後面pc的加入,我們整個團隊開始新演算法的研究,包括COCO比賽用的large

batchsize的想法,我們組手裡目前有4個比較好的work。當然,我們覺得detection這個問題遠沒有到徹底解決的程度,我們後面會放出我們的一些paper,同時會開源一些code,希望能和大家一同提升這個領域。除了通用物體檢測,我們在行人檢測以及人臉檢測方面我們(比如yy, zzj, wjf)都有一些原創的工作會推出。

對於keypoint這個任務,其實我們組開始參加比賽已經是今年7月份的時候,我們之前有過一些簡單的積累,但是更多的工作其實都是在這兩個多月內完成的。主要人力是cyl,

wzc, pyx以及zzq。從最早我們validation上面結果60左右,我們一點點挖到了單模型73左右。最後提交challenge最高的結果其實是72.6,但是官方是以test-dev最高結果對應的challenge結果來排名,所以我們丟了0.5個點。最後還是蠻可惜的。另外,雖然我們內部有一些自己的標註數據,當然市面上也有比coco更大的數據集,比如AI challenger,但是為了更公平科學的對比,所以我們沒有使用任何額外的數據。演算法上面,我們在這個比賽中提出了一些新的思路,比如之前大家都是使用hourglass的模型結構,我們想從更本質的角度說明什麼樣的網路結構才最適合做multi-person

skeleton這個問題。

說的有點遠了,回答帖子的問題本身,detection以及keypoint這些視覺問題我認為遠沒有到徹底解決的地步。比如舉一個例子,我們在實驗從發現,在train

set上面,我們拿train好的模型,最後的mmAP也只有50+,這裡面說明了很多問題,比如模型還不能overfit這些數據。另外,數據本身也存在一些問題,比如deer不屬於coco 80類中的任何一個,但是跟horse看起來有幾分像,所以往往會被判為fp。所以要徹底解決detection這個問題還有很多路要走,當然,我們覺得單純依靠現在的framework還是很受限的,所以我們已經開始跳出現有框架,在新的角度來解這個問題,比如現在都是單幀的,其實我們很多場景下數據都是視頻流的,我們在考慮怎麼把detection

tracking一起結合來優化(有點類似現在的VID任務,但是更通用)。總之,我們還是希望走在更前沿,探索並尋找到一些更科學合理的解決檢測以及其他視覺問題的辦法。

最後打個廣告,我們在招人,歡迎大家來我們face++投簡歷。


利益相關:Det比賽前四名隊伍中的某隻隊伍的主力狗

首先Clar一個事實:各家參賽的頂級隊伍,包括但是不限於Facebook, Microsoft, GG以及來自國內的Sensetime, Face++都投入了很大的努力來參加這次COCO比賽。其中冠軍隊伍Face++的方法或許Insight不多,但是至少別人贏在了工程實現上,總的來說還是實至名歸的,不存在「專業」打「業餘」的情況。

在這種前提下,我們再來思考這次比賽的意義:

1)對於普羅大眾,COCO的最大意義有兩個,讓業界知道我們目前最好的方法可以在COCO這種難度的數據上取得怎樣的效果,確立了下一個研究周期的標杆。同時,讓不明真相的群眾們知道目前「最先進的「方法是什麼。

2)對於前四名的隊伍,意義各有不同。

對於Facebook, Microsoft來說,賣自己的Paper才是目的,這點從這兩個Team的Presentation就能看得出來。以Kaiming He為代表的Facebook明顯在賣Mask-RCNN,企圖成為未來幾年統一Object Detection/Segmentation的基本框架,成為下一階段的Faster RCNN。而Microsoft這邊明顯在賣Deformable Convolution.

對於Sensetime, Face++來說,最大的目的就是向業界宣告:我們才是業內的性能標杆。這是商業上的生死之爭。

比較有趣的是,今年的前四隻隊伍本質都是基於Mask RCNN的框架,小道消息是基本所有的Team也都用了Deformable Convolution。然而現場Presentation的時候,似乎大家都心照不宣的不提自己用了對方技術的這個事實。

3) 對於該領域的發展的最大貢獻,我認為是人才。我相信只要是認真參加該比賽的隊伍,其中成員經過這樣的比賽洗禮,收穫一定不菲。立一個Flag,大家可以關注參加比賽前幾名的隊伍里,那些Junior的Researcher們,未來幾年一定是物體檢測/分割領域的重要推動者。


Deep representation learning for keypoint localization

可能。。

真大佬。。

並沒有出手啊。。


提問者自問自答一波,我參與了第六名的工作,最後結果不是特別理想,有點可惜。但是,考慮到現在此類比賽的現狀,我發現,更多的是一些企業去刷這個榜,以此作為一個宣傳的靶點。但是考慮到對research方面的推動作用,類似coco的比賽還有多大作用呢?


希望能儘快看到 paper

如果方法沒有什麼新穎的地方,也沒講什麼 insight, 只是工程上 trick 的堆疊,那就沒什麼意思了

我相信face++和商湯一定十分重視這個比賽,google 和 fair 很難說出了多少力。


在resnet刷爆imageNet之後,在物體檢測分割領域能召集全球各大公司和高校來比拼的比賽唯COCO莫屬了。

比賽的意義不只在於誰奪了冠,重要的是強者的比拼中,促進了業內技術水平的整體提高,所以這類能召集Google,facebook以及名校參加的比賽,其不言而喻。

這樣看來,從參賽隊伍角度來分析比賽的重要性,自15年這個飛躍之後,我們可以看到,之後的ImageNet比賽已經不再讓國際大廠和名校所津津樂道了。因為實質性的提升已經有了很大的局限,imageNet比賽的意義也就不如以前了,因此被組委會結束了。

那麼之後視覺領袖們去刷什麼了?起碼在檢測和分割領悟,MSCOCO就成了主要競技場。今年的COCO比賽中世界各大廠如谷歌,微軟,臉書等,各個大學均參加PK,值得稱讚的是中國的兩家計算機視覺領頭公司,商湯科技和曠視科技,均認真準備參賽,展現出了中國力量!而且曠視科技不負眾望,奪得了物體檢測和人體關鍵點檢測的雙冠軍,可以說是又一次給中國團隊爭光啦!另外在ICCV還有一項由MIT和CMU等高校牽頭的place比賽,曠視又 擊敗了谷歌,贏得了物體分割的冠軍。

真是讓人興奮的結果,曠視不僅face++平台做的好,在國際比賽上更是不鳴則已,一鳴驚人,實乃中國視覺公司的楷模,又能PK又有實際產品。

除了曠視之外,題主的上交團隊和商湯科技等其他中國本土隊伍,雖然沒能在比賽中取得如曠視這樣的好成績,但是像我上面說的那樣,共同推進領悟技術進步,擴大華人在視覺領悟的影響力,也是值得稱讚的。

因此此類比賽是十分有意義的,我們應該為中國團隊的優異表現祝賀!


高校機器不夠很虧

據說商湯打比賽 一天跑30多台四卡機


挺好的,雖然沒有什麼科學價值,但是這類比賽還是有前景一直會辦下去的,榨乾現有框架和數據集的價值才能促使大家去探索更深層的ai問題


Coco 檢測test-dev上43.5的菜雞瑟瑟發抖,還好沒有去威尼斯貼poster……


我想來說一點不太相干的。我覺得,這類比賽的流行,從另一個方面說明了現在的技術其實距離真正的商業應用還比較遙遠。

大家想一想,大概15年前第三代移動通信和大概十年前第四代移動通信差不多成型的時候,雖然沒有現在ai這麼炙手可熱,但當時基本上也是吸引了整個學界和業界的目光。想想大家當年在幹什麼,攢專利,定標準,拼硬體,互相之間就差打出血來了。那為什麼現在大家這麼其樂融融共同進步呢?可能是因為一個離錢近,一個離錢遠吧。


對於國內來說,參加這類比賽並拿個不錯的名次是招人利器,而且還給自己打了個廣告,方便以後接業務。


首先恭喜拿到好成績的團隊,這毫無疑問展示了這些企業的技術實力。

無論是取得眾人矚目的好成績,還是有人反思繁榮背後的意義,都是讓人高興的事情。

祝願AI事業能在國內繁榮昌盛。


推薦閱讀:

在曠視科技工作是怎樣一種體驗?
機器視覺方面有哪些好的開發平台?各有什麼特點?
近期無監督或半監督行人重識別有什麼進展?
行人重識別在問題深度上有什麼問題可以研究?
行人重識別的應用場景有哪些?

TAG:人工智慧 | 機器學習 | 計算機視覺 |