如何評價圖森互聯在自動駕駛 KITTI 和 Cityscapes 評測數據集上取得世界第一的成績？

12-28

圖森是一家中國的人工智慧演算法創業公司。個人一直以為自動駕駛是大公司之間的較量，今天才知道有這麼多小團隊也在參與。
請問 KITTI 和 Cityscape 這兩個公開測評數據集在自動駕駛領域的地位有多高？拿第一有多難？
圖森取得這樣的成績應該如何解讀？這些表現出色的演算法和實際應用還有哪些距離？

中文媒體的報道：圖森互聯橫掃 KITTI 和 Cityscape 測評 - 新浪網

CITTI 和 Cityscape 的官網截圖：

The KITTI Vision Benchmark Suite
http://www.cvlibs.net/datasets/kitti/eval_road.php

The KITTI Vision Benchmark Suitehttp://www.cvlibs.net/datasets/kitti/eval_object.php

https://www.cityscapes-dataset.com/benchmarks/#pixel-level-results

首先闡明我和圖森沒有任何利益關係。我就是小白一個，唯一和他們的交集就是在知乎上和naiyan wang就某些問題有過討論，在計算機視覺領域他比我認知的要深，我從和他的討論中啟發很大。

恭喜圖森團隊，在任何領域做到第一名都是不容易的。特別是這樣一個初創團隊。

這兩個數據集並不像Imagenet等名氣那麼大，一方面這兩個數據集是歐洲團隊創建的，現在CV在北美和亞洲比較活躍；另一方面這個數據集比較新（KITTI 2013年，Cityscapes 2015年）。

但這兩數據集質量還是挺高的，像KITTI是由德國的馬克普朗克研究所和KIT一起創建的項目，牽頭人Andreas Geiger博士是馬普所自動視覺組的leader，也拿過幾次Best Paper，還是17年cvpr的area chair。他實驗室就是focus on自動駕駛。Cityscapes也有馬普所的人參與。

KITTI涵蓋的項目挺多，包括自動駕駛場景中的識別，跟蹤，道路識別等，Cityscapes主要專註於像素級別的分割和識別。

上圖是Cityscapes的一張圖，個人認為Cityscapes還是挺難的。雖然其圖像相對於真實的駕駛場景來說，較乾淨，但像素級別的分割和識別提出了更高的要求。

圖森拿了car識別，道路估計和Cityscapes多個第一，這說明圖森的技術積累還是相當廣泛的，在計算機視覺領域裡識別，檢測，分割等都有所建樹。哎，我等小白還要繼續努力啊。聽說他們投了aaai17，我也有一篇，不知道能不能中，如果中了希望到時能夠認識他們一下。

現在圖像數據集分流比較嚴重，針對性越來越強，感覺再像以前一個演算法橫掃的情況不大可能會出現了。越來越專業越來越精細的數據集可能是以後的趨勢。

也有人會質疑刷數據集的意義，我相信計算機視覺領域的researcher刷數據集並不是目的，通過數據集來尋找解決現實問題的途徑和技術手段，以及探索演算法的本質才是他們的追求。

最後，任何技術的進步都值得祝賀的，恭喜圖森。

年青的國人科學家和技術工作者做出的好的成果，再次證明了，公司的大小從來不是限制能力發揮的因素，確實有很多團隊在默默的努力，我覺得我們應該為這樣的企業和國人人才感到驕傲才對啊！難道不是嗎？結果一看大家的回答，怎麼正能量這麼少~唉~有點失望了~ 說別人名字的這種沒有「營養」的回答真心覺得不要在這裡占坑了吧~

anyway, 期待圖森的paper和產品，只要是推動技術發展的工作，都應該得到尊重和鼓勵哈~

我也不匿名了。這麼多嘲諷和有罪推定的答案。我真是醉了。我一個跟圖森一點關係都沒有只是去面試過一次的人都看不下去了，氣得我胃疼。
我也是屬於國內某知名cv實驗室的一員（雖然只是一般水平，跟組裡的師兄師姐比起來水平還差很多），月初去圖森面試了一次。面試的時候我講我的項目，被面試官指出了很多問題，也提了很多的建議，跟面試官也討論了一些深度學習其他方面的技術。總體感受就是面試官水平真的非常高。至少在深度學習領域是我面過的人裡面最強的。我相信圖森裡面極為優秀的精通cv領域技術的牛人一定很多。能做出這樣的成就不奇怪。（畢竟在cv領域，中國人和華人在很多細分領域都取得過非常出色的甚至引領世界的成果，比如前幾年自動化所參與的行為識別領域的IDT系列，其性能在當時和之後不短的時間一直是領域標杆性的工作）
我就不談這問題是不是自問自答了。（根據回答和評論，不是自問自答的可能性比較大。）黃曉明結婚的時候，很多人抱怨說戲子被如此關注，科學家卻得不到關注。中國的科研人才做出了成就，宣傳一下竟也被這樣質疑，有罪推定成自問自答。你們網友到底要鬧哪樣？就算是廣告，這麼好的工作，宣傳一下咋了？說到底，科學家在中國還是得不到足夠的尊重。

我們最近開源了CityScapes pixel-level semantic segmentation的代碼：

TuSimple/TuSimple-DUC

希望對感興趣的同學有所幫助。

就在我9.15提交我自己的道路檢測結果時，發現了TBA已經霸佔了道路檢測的第一，一開始還很好奇是哪個公司，直到新聞出來，才意識到可能是圖森，之後又看了一下，演算法名稱已經改成了Tusimple。如此高的performance，讓我們怎麼活啊。。。

由於我是做道路檢測的，談一下這部分的難度吧（雖然目標檢測我也在做，但對KITTI的目標檢測具體不是很熟悉）。KITTI的道路檢測應該是行駛道路區域的檢測，並且評價機制與其他的道路檢測數據集略有不同，其是將圖像通過類似IPM變換的方法，將路面俯視圖做為最終結果評估的。換句話說，一平方米在評估圖像中的像素數量是確定的。而街景拍攝視角是：越遠的地方，物體所佔像素數量越小。而這就需要非常精細的分割才能達到很高的performance。
結合自己做道路檢測的經驗，圖森作為初創公司，能夠達到第一真的是令人膜拜。不知道，圖森做這個是一個人在做，還是一個團隊。當然，真的很大牛啊他們！

而我的結果呢，名次太低，還是不提是哪一個了。不過其實想法一年前就有了，初步試驗結果在半年前就做出來了。但囿於很多事情，知道最近才提交結果。半年前的話，還能排個第二，現在，也只能勉強前十。

就道路檢測的實際應用而言，現在距離落地還比較困難，現有的優秀方法大都至少是在TITAN X往上的GPU上測試的，在這樣高性能的環境下都不能實時，更何況一些低功耗的開發版（TX1，TK1）甚至FPGA。
當然，也不能說他就什麼用都沒有。如果能對道路區域準確地檢測出來，無人駕駛系統就可以去關注特定區域發生的異常事件。

再次恭喜圖森！

謝 @Filestorm 邀。圖森在無人駕駛領域裡一出手，就獲得了這麼大的成就，實在出乎我的意料。

自己跑過KITTI的visual odometry的dataset，不是和圖森做一個領域的，但是我還是不得不說，KITTI和Cityscape基本就是這個領域最激烈的競技場之一。以一個start-up的體量做到世界第一這個地步，應該說Filestorm他們一手創立起世界級的機器視覺研究團隊，這是中國人在這個領域裡的一個大寫的驕傲。

都說現在CV泡沫多，不過我大膽地預測一下，圖森可能會剩者為王。

利益相關：半個同行，跟圖森沒有1美分利益關係，Filestorm的小透明粉一枚

猶豫了一下決定不匿名。

自己斷斷續續摸索了大概大半年DL，入門都沒算就投了圖森，很幸運地過了王乃岩的一面關，二面被候曉迪虐得體無完膚，面試結束後之後已知無望但仍然問了個一直很好奇的問題，"圖森最開始是做廣告的，為何後來轉向了DL?",按照我的理解，廣告方向直接關乎到變現，做好了會活得很滋潤，而無人駕駛巨頭們在捉對廝殺，慘烈無比，為何圖森還偏向釜山行。

然後候曉迪很乾脆地回答我"廣告這個問題挑戰性不夠，而且還要等數據。Researcher是等不起的，我們覺得自動駕駛問題有挑戰性就做了"（大意如此，不完全準確）。面完的晚上就看到消息，圖森刷了九項第一，當時心裡更加覺得面試掛了遺憾，又佩服圖森這幫人敢想敢做最重要的是還能做到第一。

我能感受到他們征途是"星辰大海"，而不是"眼前的知乎"，也認為人不能推己及人地揣摩他人動機，然後潑髒水。

在地鐵站不方便，就不多說了. 雖然有些流氓，但我覺得圖森最好的回應是"你行你也刷一個啊？"，畢竟現在你們才是第一。

恭喜圖森秀了一波實力！

我只想說，KITTI排在前面的一溜的各大公司的匿名提交，還讓不讓人發論文了嘛！

謝邀...
懶得正經答題，還是抖機靈好了。

某個疑似友商小號黑的姿勢水平真是太低了。感覺還是要學習一個。

懷疑是軟文
--PR稿能搞到現在還沒一個一百贊答案么）

懷疑原因是CTO和首席科學家都關注了
--你還是刷知乎刷的太少，給問題打上人工智慧，CV這種tag的時候自動就會推薦邀請 @Filestorm 這種大V的。找這種邏輯是不是輪子哥也是網紅的首席PR執行官了 @vczh

另一個懷疑原因是提問者是知乎產品經理，並不是AI或者CV專業人士。

「從提問歷史來看，連AI或者CV的愛好者都算不上」。然後居然沒有「關注什麼谷歌、百度無人駕駛，以及知乎上各位普及cv/ai的大大們」。

--感覺 @黃濤昨天在公司里被黑慘了。堂堂知乎的數據方面的帶頭人之一，結果被說連AI的愛好者都算不上... 以後被彈劾一大罪名就是「你自己網站的用戶都不認可你的技術水平，你還要不要混了」
而且白天上班那麼累，晚上刷刷知乎就不能看看不是AI的問題了么。。。從提問記錄就把人定性了？說真的，你還真的以為AI和CV技術能在知乎上學么...