搜狗獲Cityscapes評測世界冠軍,多項指標刷新世界紀錄
7 人贊了文章
近日,來自搜狗公司的視覺研究團隊,在國際自動駕駛領域權威評測集Cityscapes上獲得實例分割評測的第一名,擊敗了Nvidia、Facebook、商湯等幾十支強勁的國際科研機構,並一舉刷新了世界記錄,代表中國向全世界彰顯了我們出色的技術實力。
這是今年搜狗繼CVPR大會上奪得WAD自動駕駛識別挑戰賽冠軍之後,所摘得的又一桂冠。短期內連奪兩項世界冠軍,充分證明了搜狗在計算機視覺上已經位列行業領先地位。
Cityscapes評測數據集是什麼?
眾所周知,人工智慧技術在自動駕駛領域有著非常廣闊的市場空間,也是最被人們所看好的一大應用前景。而如何決定AI判斷識別路況信息的理解能力,就取決於它的評測數據集水準。
Cityscapes評測數據集在2015年由賓士公司推動發布,是目前公認的自動駕駛領域內最具權威性和專業性的圖像語義分割評測集之一,其關注真實場景下的城區道路環境理解,任務難度更高,且更貼近於自動駕駛等熱門需求。在Cityscapes評測數據集之中,共分為像素分割和實例分割兩個子任務,其中相較於像素分割,實例分割的難度要更大,也是計算機視覺領域最重要、最具挑戰的任務之一。
如何讓機器變得更加「聰明」,具備足夠的學習能力,是所有人工智慧研發時的最大難題,更是國內外科技企業爭相研究的自動駕駛技術。能夠在Cityscapes評測數據集中脫穎而出,打破世界紀錄,意味著搜狗已經具備了強大的AI技術硬實力。
實例分割,自動駕駛的曙光已現
實例分割是一個很綜合的問題,融合了目標檢測、圖像分割、圖像分類等多種AI技術。顧名思義,像素級別的語義分割,是對圖像中的每個像素都劃分出對應的類別,即實現像素級別的分類;而分類的具體對象,即為實例。那麼實例分割不僅要進行像素級別的分類,還需要在具體的類別基礎上區別開不同的實例。實例分割對自駕汽車、機器人、視頻監控等領域,都有著舉足輕重的重要價值,獲得全世界科學研發界的密切關注。
Cityscapes評測集包含50個城市不同情況下的街景,以及30類物體標註。此次搜狗參加的實例場景圖像語義分割評測,類別對象多、場景複雜,挑戰難度非常大。面對複雜的實例環境,搜狗所展示的技術十分巧妙。
過去,我們常常會把AI的關注點放在單一的車道上,而實際的路況信息乃是十分複雜且多變的,必須要求駕駛員有足夠的「眼觀六路耳聽八方」的能力,用縱覽全局的目光來觀察整個路況。基於這個原因,搜狗通過引?全局編碼模塊,來顯著提升了全局信息在實例分割中的影響。全局編碼模塊可以很好地捕獲圖像中的語義信息,並選擇性地突出顯示與實例相關聯的特徵映射,從而提升準確率。
另一方面,在訓練過程中如果只是簡單地引入每個像素的分割損失,而不是著重使用場景的全局上下文信息,會導致嚴重的類間不平衡問題。針對這一現狀,搜狗引入了一種全局實例例編碼損失函數GIE-loss。這種損失函數會預測場景中出現的實例類別,來加強網路學習全局語義信息的能力。不像傳統的針對每個像素的損失函數,GIE-loss對每個物體,不管大大小小都是同等對待的,在使用這個損失函數後,小物體的分割效果明顯變好。
通過上面的結果對比圖,我們可以清晰的看出全局編碼模塊的引入,徹底改變了實例分割傳統演算法中遠近物體不能兼顧的缺點,近處物體可以識別的很好,遠處小物體的分割效果也提升了非常多,使得最終的AP100指標遠超其他隊伍。
截至目前,Cityscapes評測吸引了近百支隊伍參賽,包括Facebook、香港中?大學、商湯和NVIDIA(英偉達)等眾多國內外優秀創新企業和頂尖學術機構參加。值得一提的是,在過去的近兩年時間裡,商湯、港中文團隊與NVIDIA(英偉達)幾乎包攬了所有圖像分割評測的冠軍。而首次參賽的搜狗團隊,各項評測指標均遠超其他隊伍,打破了世界紀錄,以無可爭議的成績拿下了第一名。
搜狗視覺研究團隊通過不斷地演算法積累和迭代, 建立了一套高效易用的通用檢測分割框架,可以針對任務快速遷移演算法模型,達到實際應用需求。 CVPR2018 WAD檢測任務和本次實例分割任務所用模型基本一致,驗證了模型的高效易用性。同時團隊最近也做了一些簡單的實驗, 在少量代碼改動的情況下,僅僅訓練幾個小時,便可以在一些著名的評測數據集上達到top的成績。
聚焦「自然交互+知識計算」,將成就搜狗人工智慧的未來之路
人工智慧的命題範圍很大,而搜狗選擇的突破口很小。以點帶面,正是王小川為搜狗所規劃的未來道路。
一直以來,搜狗都在堅持著「自然交互+知識計算」的人工智慧核心戰略,專註於自然交互領域展開發力。在語音領域,擁有充足真實語料數據優勢的搜狗,把語音識別與人機對話相結合,發布了知音引擎,並推出了全球首款商用AI同傳。除了單獨的語音識別「聽的能力」之外,搜狗還向著合成方向的「說的能力」展開突破,能夠自動學習的AI機器兼具了聽、說、翻譯等多種能力,位居業界領先地位。多模態輸入,已成為了搜狗語音交互的研發重心。
而在視覺領域,搜狗也實現了AI技術的不斷突破,讓機器的自然交互變得更加全面。2017年烏鎮互聯網大會上,搜狗發布了行業首款唇語識別技術,實現了視覺與聽覺的首次結合,幫助機器以更加多元化的維度來理解用戶的訴求。在車載、智能家居等垂直場景下,準確率高達90%。本次在Cityscapes的實例場景圖像語義分割評測中大獲全勝,更是體現了搜狗對於視覺識別的技術積累,幫助機器進一步提升各項感知能力的交互水準。
連續獲得多項國際比賽冠軍的搜狗,已經證明了自己在人工智慧領域的充足技術底蘊。我們有理由相信,在未來的AI賽道上,佔據領先優勢的搜狗一定能取得更加出色的成績,用實際的AI產品來切身改善用戶的交互體驗。
推薦閱讀:
※新技術 | 你真的了解人工智慧嗎?它對交通業發展產生怎樣影響?
※CS篇||面對學界、業界AI的火熱,如何選擇自己的申請方向?
※再不努力,連收銀員都沒得做了
※人工智慧將能預測人類壽命?精確率已達69%
※如何寫一手漂亮的模型:面向對象編程的設計原則綜述