AI產業化時代，學術研究的價值

10-19

AI產業化時代，學術研究的價值

來自專欄 MMLab學術視野300 人贊了文章

歡迎大家光臨「MMLab學術視野」，我在讀書的時候，常在半夜寫blog分享自己研究道路上的點滴，得到了很多朋友的反饋和鼓勵。後來由於工作時間的原因，寫blog的事情擱下了很多年，回想起來不免覺得遺憾。對於一個研究者來說，分享是一種非常有意義的活動 — 觀點的交流與碰撞往往能帶來很多新的思考。

過去一段時間，我一直醞釀著重新打開分享的渠道。在和實驗室的老師們和同學們商量後，我開闢了「MMLab學術視野」。這個專欄是由實驗室的全體成員共同維護，每位成員都可以在這裡分享自己的成果和心得。我們實驗室是一個非常開放的集體，大家（包括老師和同學）都有著不同的思路和想法。我們鼓勵不同想法的碰撞和交流 — 在我看來，這是我們實驗室創新活力的源泉，也是我們每年有大量新成果在頂級會議發表的重要原因。

Open-MMLab計劃

可以預見，現代AI系統日趨複雜，涉及很多的關鍵細節，這些細節的優化和調節需要長時間的專註和積累。因此，AI研究的未來推進，也將需要越來越多不同研究背景的團隊共同參與，讓每個團隊專註於某一個方面的開拓與探索。在這樣的背景下，我們啟動Open-MMLab計劃，希望在一個統一的代碼架構上，逐步開放實驗室積累的演算法和模型，為計算機視覺的研究社區貢獻自己的一分力量。

對於這個計劃，我在這裡做一個簡單的說明：

1. 這是一個純粹的學術開源計劃，所開放的都是已經公開發表的演算法和模型（包括我們自己和其它研究組提出的代表性演算法），不涉及任何的商業化技術。

2. 我們希望這個計劃能夠降低演算法復現的難度，和不必要的重複實驗與訓練，從而讓使用者能夠專註於新問題的提出、新思路的探索，而不需要花費主要精力用於已有演算法組件的細節調試。

3. 我們在開放的codebase中會對現有的主流演算法框架進行重構，把它們分解為可復用的組件。希望未來的研究者可以基於這些組件，能迅速建立新的演算法框架原型，加快探索的進度。

4. 正如這個專欄一樣，我們希望Open-MMLab成為一個學術交流和探討的渠道。

日前，Open-MMLab已經開放了兩個package:

mmcv: 計算機視覺研發所需的一些基礎函數，這個package也為OpenMMLab的其它package提供統一的基礎設施。Github: open-mmlab/mmcv
mmdetection：專註於物體檢測的開源庫，這個庫對主流detection框架進行了重構，以統一的代碼架構支持Fast R-CNN, Faster R-CNN, Mask R-CNN等主流框架，很快還將支持RetinaNet和Cascade R-CNN等。這個開源庫也是今年MSCOCO冠軍團隊MMDet的codebase。Github: open-mmlab/mmdetection

以下是專欄的第一篇文章。

在AI領域，過去幾年是一個大時代 — 深度學習帶來的性能突破、AlphaGo的橫空出世、AI產業的風起雲湧 — 這一切不僅改變著我們的衣食住行，也給象牙塔內的學術研究帶來了深刻的影響。在這個新的時代，學術研究面臨什麼樣的新挑戰？我們應該如何面對？

新時代，新挑戰

在過去幾年裡，我參與了很多與深度學習相關的研究項目，目睹了一個個模型和演算法從最初設計到達成目標的歷程，感觸尤深。這是一個與傳統計算機視覺與機器學習很不一樣的領域。在我的經歷中，它給學術研究帶來的挑戰主要有三個方面：

1. 資源需求

2012年，Geoffrey Hinton教授團隊提出的AlexNet獲得當年ImageNet比賽的冠軍，引起了整個視覺領域的矚目，也開啟了追逐超深網路的競賽。短短几年間，神經網路的規模也從8層，發展到了數百上千層。與此同時，資源的投入，尤其是算力的投入，成為了刷新性能指標的關鍵動力。我們參與ImageNet、ActivityNet、Microsoft COCO等比賽取得多項冠軍，背後都離不開數百塊頂級GPU的支持。近兩年，更大規模的數據集層出不窮，比如Yahoo發布的YFCC，Google發布的OpenImage都達到了數千萬乃至上億圖片的規模，遠超ImageNet比賽的百萬級別。要在這樣的數據集上獲得探索新的方法，取得新的突破，對資源的需求更為巨大。

2. 性能導向

從AlexNet到ResNet，深度學習領域的很多令人矚目的進展，都首先體現在性能的提升上。近幾年AI的產業化，其基礎也是在人臉識別等關鍵任務上的性能突破。因此，研究導向也發生了深刻的變化 — 理論創新逐漸離開舞台中央，性能提升成為了主旋律。大家越來越多地聚焦在實用方法上，把大量的精力投入到超越state of the art的戰鬥中。AI持續火熱，論文發表量屢創新高，資深評審員嚴重不足，也讓這種導向不斷加強。我在幾個主流會議擔任Area Chair的經歷中發現，研究經驗相對較淺的評審員，會更多地關注性能指標的數值，而不是一個思路的學術價值。

3. 經驗依賴

深度學習由於在性能方面的突出優勢，近幾年在計算機視覺的多個關鍵領域幾乎一統江湖。深度神經網路由於其高度非線性的複雜計算過程，一直缺乏數學工具能對它進行有效分析。雖然數學界對深度學習也產生了濃厚的興趣，嘗試從不同角度對其進行解釋和分析，但是目前所獲得的成果對於指導實踐還有相當大的距離。因此，大家很多時候只能依賴經驗對模型進行改進。更嚴重的挑戰是，最終性能對某些細節的設定特別敏感。無論是復現他人的方法或者試驗新的思路，都需要花費大量時間對細節設定進行分析、調整、和檢驗。這種經驗的積累對AI的研發具有重要價值，這也是我們啟動Open-MMLab的一個主要初衷。

學術研究需要新的思考

由於深度學習時代的新特點，工業界，尤其是技術基礎深厚的公司，相比於學術界有著明顯的優勢。工業界有著更多的數據、更大的算力、以及更豐富的人力資源和工程經驗，這些都對推進AI研發至關重要。那對於AI的未來發展，學術界的價值在哪裡呢？我個人認為：

學術研究的意義，不在於對極致性能的追求，而在於對未知世界的探索。

工業界雖然享有更為豐富的資源，但同時也直接面臨著市場競爭的直接壓力。因此，工業界更關注技術的產業落地，研發投入也會受到商業價值判斷的引導。相比而言，學術界有更自由的探索空間，這是非常重要的優勢。學界可以充分利用這個空間去開拓未知的世界，但這需要我們走出熟悉的領地。

1. 擁抱新變化

深度學習時代給我們帶來的挑戰是客觀存在的。應對這些挑戰，需要我們走出舒適區，在一個不一樣的環境進行探索，這正好給學術研究帶來很多激動人心的機會。在這個新的時代里，由於AI技術廣泛落地，我們終於有機會可以觀察到我們提出的模型、演算法、和技術在被真正的用戶使用的過程中會遇到什麼樣的困難 — 這些困難和我們在實驗室裡面想像的可能完全不一樣。新的困難是新的研究問題的重要源泉。

比如，我們在設計CNN的時候，通常會認為卷積層是整個計算最主要的瓶頸，而是當這樣的網路被用於到城市級的人臉識別時，由於類別數的大幅度增長，訓練時的計算瓶頸可能轉移到用於分類的線性層。又比如，傳統的訓練演算法的研究往往是聚焦於第一次訓練獲得的性能，而在實際應用時，如何在後續的新數據新場景中高效迭代並保持性能，可能是一線應用部門更為關注的焦點。再比如，傳統的事件檢測的研究里，研究者們往往會關注判斷的準確度，而實際系統的使用者關心的卻是危險發生時，能不能在最短時間發出警報。

這些並不僅僅是應用過程中的「工程實現問題」，它們本身蘊含著豐富的研究價值。要發掘和解決這些問題，需要我們有開放的心態走出象牙塔和使用者交流，有敏銳的眼光去發現實際場景中的課題，有足夠的勇氣去挑戰主流思維的慣性。

2. 提出新問題

計算機視覺是一個非常廣闊的領域。圖像分類、物體檢測、場景分割這些大家經常關注的任務只是整個領域裡面的幾個小點。雖然深度學習在這些任務上取得的性能突破給整個學科帶來了巨大的示範作用，但這僅僅是開始，而不是終結。當聚光燈投射在這幾個已經取得巨大成功的問題上的時候，當人們都開足馬力在這些任務上追求一個點兩個點的提升的時候，我們不要忘了，學術研究在價值不僅在於解決問題，更在於提出問題。希爾伯特的23個問題引導了整個數學界百年來的發展；李飛飛教授的ImageNet Challenge在過去十年推動了視覺技術的突飛猛進。當我們的眼光從常見任務的性能角逐中移開，我們會發現這個學科仍舊充滿著挑戰和機遇。

比如，駕駛場景的語義分割一直是近年來的研究熱點，在這個任務的常見數據集上，性能也被推到了很高的水平。很多同學問過我，這個問題後面還能怎麼做。我會請他們思考，語義分割這個任務本身對駕駛場景是不是最有意義的？對於一個駕駛者，他可能更關心的是前面的有沒有車子，車子離我有多遠，它的行駛方向和速度。要回答這些問題，像素級的語義分割是必經之路么？我們能否抽象出與最終目標配合得更好的問題呢？另外，在標準的benchmark上，我們習慣於基於像素級標註去訓練語義分割模型，而這樣的標註稀缺而昂貴。我們是否可以探索出新的標註模式，比如利用街景中的三維結構、視頻中的運動結構、高清地圖等的結構和信息獲取低成本高效度的監督信息，並以此為基礎建立全新的場景分析模型？

再比如，視頻理解是近兩三年計算機視覺的另一研究熱點，各研究機構也在推出很多新的benchmark。過去的視頻研究一直聚焦於事件分類或者動作識別，可是給事件或者動作打上類別標籤離真正的理解有多遠呢？在實際的視頻檢索、推薦、或分享系統中，我們需要的什麼樣的語義元素？此外，現有框架（包括我們實驗室這兩年提出的）大多數是基於CNN或者它的不同變種提取全畫面的場景或者運動特徵。但是，我也一直反思，這是不是達到真正視頻理解的正確途徑？我們看電視、看短片、看電影的時候，真的能夠僅僅基於視覺信息，不了解故事背景，不聽人物談話就能正確理解視頻的內容么？如果要達到真正的視頻理解，我們是否可以打破視覺的藩籬，建立新的評價標準，推動未來的研究擁抱更豐富的信息渠道？

我們在AI模型的研究中，一直關注準確率的提高。近年來，由於這些模型逐步在實際生產環境部署，大家也投入很多的研發力量優化它的運行性能。可是，隨著AI進入更多的關鍵領域，成為很多行業的核心組件和基礎設施，它的可靠性和安全性也將成為越來越重要的議題。可以設想，如果我們要推動一個AI模型進入一個銀行、醫院、或者公共交通系統的核心環節（而不僅僅只是做人臉辨認），我們如何讓他們信服這個模型不會在關鍵時候出現嚴重錯誤？如果一個AI模型會在實際運行中不斷吸收新的數據進行更新，如何保證它不會受到惡意數據的污染或誤導？現在AI模型的訓練都是在統一準備的數據集上進行的，未來的AI訓練是否可以建立在相互不可共享的多源數據基礎上呢？這都是我們進入真正的智能時代首先面臨的問題，而對它們的學術研究才剛剛開始。

對於這些問題，我們有自己的思考，會在以後的文章中向讀者分享。我們也希望在以後的交流中能引出不一樣的觀點和思路。

學術的價值

計算機視覺和機器學習的學術研究已經進入了新的時代，這個時代深深地打上了產業的烙印。在這個時代，我們面臨著很多新的挑戰，我仍然堅信，學術研究依然有著重要而鮮明的價值：

探索未來的使命，獨立思考的精神，擁抱變化的胸懷，打破成規的勇氣。

以此，與大家共勉。