像人一樣腦補世界！DeepMind歷時一年半搞出GQN，登上Science

06-23

來自專欄量子位

夏乙安妮發自凹非寺
量子位出品 | 公眾號 QbitAI

歷時一年半的研發之後，新成果浮出水面。

被稱為人工智慧「夢之隊」的DeepMind，剛剛在Science上發表論文，提出一種像人類一樣具備「腦補」世界能力的AI：GQN（Generative Query Network）。

GQN能夠基於2D圖像，重建/腦補出整個場景的3D表示。

「與嬰兒和動物非常相似，GQN通過理解對周圍環境的觀察來學習。」DeepMind在官方博客中稱這個學習方式，就像人類一樣。

DeepMind的創始人兼CEO哈薩比斯表示，他一直都對大腦如何重現圖像非常著迷，而這次提出的GQN模型可以根據幾個2D快照重現3D場景表示，還能從任何角度渲染出來。

哈薩比斯Twitter截圖

這個AI高級在哪？

你可能已經從前邊的描述中注意到，它是一種無監督學習模型，連訓練的圖像都是自己獲取的。

而現在那些很厲害的計算機視覺系統，都是監督學習的成果，它們需要用人類製造的大規模標註圖像數據集來訓練，這就限制了數據集包含場景的範圍，進而限制了這種數據所訓練出來的視覺系統的能力。

論文一作、DeepMind研究員Ali Eslami說，監督學習超級成功，但它還是無法讓人滿足。有這樣兩個原因：第一，人類需要手動創建數據集來訓練它，這種操作又貴又不全面；第二，人類嬰兒和高級哺乳動物都不是這麼學習的。

如果要開發在現實世界裡可用的複雜機器，想讓AI完全理解周邊環境，知道能就近坐在哪、旁邊的沙發是什麼材質、地上的影子是哪個光源製造出來的、又該去哪關燈，就需要換一個思路。

DeepMind新提出的GQN，就是這樣一種新思路。

兩個網路

GQN模型由兩部分組成：一個表示網路、一個生成網路。

表示網路將智能體觀察到的圖像作為輸入，然後生成一個描述潛在場景的表示（向量）。

生成網路的任務是從一個之前沒有觀察到的角度，來預測（也可以叫「想像」）出這個潛在的場景。

表示網路並不知道人類會讓生成網路從哪些視角來預測，所以，它必須有效地描繪出整個場景的真實布局。

在這個過程中，它會先構建一個簡單的分布表示，抓住最重要的元素，比如物體的位置、顏色和整個房間的布局。在訓練過程中，生成器了解了這個環境中典型的物體、特性、關係、規則。這些兩個網路共享的「概念」讓表示網路可以用高度壓縮、概略的方式來描述場景，讓生成網路在有必要的時候去補全細節。

比如說，一個藍色立方體，在表示網路那裡就是一組數字，而生成網路知道在不同角度該用怎樣的像素來呈現它。

四大特性

DeepMind在模擬的三維世界中，基於多個程序生成的環境，對GQN進行了一系列受控實驗。其中的多個物體的位置、顏色、形狀、紋理、光源都是隨機生成，並且伴隨著重度的遮擋。

在這些環境中進行訓練之後，GQN被用於新的場景。DeepMind在實驗中，發現了GQN的幾個重要特性。

第一，GQN能以非常精確的方式，從全新的視角「想像/腦補」出以前從未見過的場景。只要給出一個場景表示和新的攝像機視點後，GQN就能生成清晰的圖像，無需實現規定透視、遮擋或光線規則。

效果請看下面幾個演示，左邊是觀察到的2D圖片，右邊是GQN「腦補」出的世界。

第二，GQN學會對對象進行計數、定位和分類，而且無需任何對象級標籤。儘管露出的表示部分可能非常小，但GQN的預測仍然高度準確，幾乎可以亂真。這意味著GQN能夠準確感知。

效果請看下圖，同樣左邊是觀察，右邊是腦補：

第三，GQN能夠表示、衡量和減少不確定性。即便內容不是完全可見，GQN也能應付場景中的不確定性，並將場景中的多個局部視圖組合起來，形成一個整體。

這事兒挺難，人都不一定能做好。GQN能力如何？見下圖所示。有一類是第一人稱視角的預測：

有一類是自上而下的視角預測：

第四，GQN能夠進行穩健、數據高效的強化學習。與無模型的基線智能體相比，把GQN的緊湊表示賦予最先進的強化學習智能體後，可以更加數據高效的方式完成任務。

對這些智能體而言，GQN中的信息可以看做是對環境的「先天」知識。

多方評價

畢竟也是登上Science的論文了，DeepMind官宣幾個小時後，在Twitter和Reddit收到了大量圍觀和評價。

「話癆」型谷歌大腦的研究人員David Ha稱讚這是來自「夢之隊」DeepMind的炫酷研究。「環境生成模型可為自動學習理解周圍世界的機器鋪平道路。」他給出了肯定評價。

日本AI獨角獸Preferred Networks（PFN）聯合創始人岡野原大輔（Daisuke Okanohara）認為，GQN通過幾個視角的觀察就能將3D世界表示成本徵向量，又能從新視角重現出場景，「這項研究顯示出神經網路可以通過無監督方式學習這樣的能力，真是個突破。」

Twitter機器學習界網紅AlteredQualia認為這是「相當瘋狂的」的一項研究，澳大利亞數據科學家、http://psyoa.org董事會成員Tom Wallis評價GQN「在場景理解上效果驚人」……

雖然很多大牛力挺，但……Reddit上的很多程序員卻認為這項研究沒有所說的那麼完美。

ID為court_of _ai的網友認為這項研究有些讓他失望：

視覺效果不錯，但也只是一個典型的過擬合練習。就用一堆玩具似的世界，用大量數據提煉出vanilla conditional deconvs。……但這怎麼能算一個突破？

網友seann999認為，若想應用這項成果到實際研究中，那恐怕有點難度：

結果真的很酷，但是在典型的導航任務(比如IRL或3D迷宮遊戲)中，你通常不會得到真實的當前相機視角/位置，所以我認為它應用起來非常困難。
僅從圖像和動作序列進行三維表示學習和環境重構可能更具挑戰性，特別是在隨機環境中。

還有一些網友因此開始懷疑Science是不是給DeepMind放水了：

Deepmind技術性地「收買」了這些大型期刊，他們近期發表在《科學》/《自然》上的論文我們很難當真。他們的很多研究都非常棒，但為什麼要這樣炒作呢:（

論文傳送門

Anyway，這篇論文還是非常值得一讀，傳送門在此：

http://science.sciencemag.org/content/360/6394/1204.full

— 完 —

歡迎大家關注我們的專欄：量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態

像人一樣腦補世界！DeepMind歷時一年半搞出GQN，登上Science

這個AI高級在哪？

兩個網路

四大特性

相關研究

多方評價

論文傳送門