像人一樣腦補世界!DeepMind歷時一年半搞出GQN,登上Science

像人一樣腦補世界!DeepMind歷時一年半搞出GQN,登上Science

來自專欄量子位

夏乙 安妮 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

歷時一年半的研發之後,新成果浮出水面 。

被稱為人工智慧「夢之隊」的DeepMind,剛剛在Science上發表論文,提出一種像人類一樣具備「腦補」世界能力的AI:GQN(Generative Query Network)

GQN能夠基於2D圖像,重建/腦補出整個場景的3D表示。

「與嬰兒和動物非常相似,GQN通過理解對周圍環境的觀察來學習。」DeepMind在官方博客中稱這個學習方式,就像人類一樣。

DeepMind的創始人兼CEO哈薩比斯表示,他一直都對大腦如何重現圖像非常著迷,而這次提出的GQN模型可以根據幾個2D快照重現3D場景表示,還能從任何角度渲染出來。

哈薩比斯Twitter截圖

這個AI高級在哪?

你可能已經從前邊的描述中注意到,它是一種無監督學習模型,連訓練的圖像都是自己獲取的。

而現在那些很厲害的計算機視覺系統,都是監督學習的成果,它們需要用人類製造的大規模標註圖像數據集來訓練,這就限制了數據集包含場景的範圍,進而限制了這種數據所訓練出來的視覺系統的能力。

論文一作、DeepMind研究員Ali Eslami說,監督學習超級成功,但它還是無法讓人滿足。有這樣兩個原因:第一,人類需要手動創建數據集來訓練它,這種操作又貴又不全面;第二,人類嬰兒和高級哺乳動物都不是這麼學習的。

如果要開發在現實世界裡可用的複雜機器,想讓AI完全理解周邊環境,知道能就近坐在哪、旁邊的沙發是什麼材質、地上的影子是哪個光源製造出來的、又該去哪關燈,就需要換一個思路。

DeepMind新提出的GQN,就是這樣一種新思路。

兩個網路

GQN模型由兩部分組成:一個表示網路、一個生成網路。

表示網路將智能體觀察到的圖像作為輸入,然後生成一個描述潛在場景的表示(向量)

生成網路的任務是從一個之前沒有觀察到的角度,來預測(也可以叫「想像」)出這個潛在的場景。

表示網路並不知道人類會讓生成網路從哪些視角來預測,所以,它必須有效地描繪出整個場景的真實布局。

在這個過程中,它會先構建一個簡單的分布表示,抓住最重要的元素,比如物體的位置、顏色和整個房間的布局。在訓練過程中,生成器了解了這個環境中典型的物體、特性、關係、規則。這些兩個網路共享的「概念」讓表示網路可以用高度壓縮、概略的方式來描述場景,讓生成網路在有必要的時候去補全細節。

比如說,一個藍色立方體,在表示網路那裡就是一組數字,而生成網路知道在不同角度該用怎樣的像素來呈現它。

四大特性

DeepMind在模擬的三維世界中,基於多個程序生成的環境,對GQN進行了一系列受控實驗。其中的多個物體的位置、顏色、形狀、紋理、光源都是隨機生成,並且伴隨著重度的遮擋。

在這些環境中進行訓練之後,GQN被用於新的場景。DeepMind在實驗中,發現了GQN的幾個重要特性。

第一,GQN能以非常精確的方式,從全新的視角「想像/腦補」出以前從未見過的場景。只要給出一個場景表示和新的攝像機視點後,GQN就能生成清晰的圖像,無需實現規定透視、遮擋或光線規則。

效果請看下面幾個演示,左邊是觀察到的2D圖片,右邊是GQN「腦補」出的世界。

第二,GQN學會對對象進行計數、定位和分類,而且無需任何對象級標籤。儘管露出的表示部分可能非常小,但GQN的預測仍然高度準確,幾乎可以亂真。這意味著GQN能夠準確感知。

效果請看下圖,同樣左邊是觀察,右邊是腦補:

第三,GQN能夠表示、衡量和減少不確定性。即便內容不是完全可見,GQN也能應付場景中的不確定性,並將場景中的多個局部視圖組合起來,形成一個整體。

這事兒挺難,人都不一定能做好。GQN能力如何?見下圖所示。有一類是第一人稱視角的預測:

有一類是自上而下的視角預測:

第四,GQN能夠進行穩健、數據高效的強化學習。與無模型的基線智能體相比,把GQN的緊湊表示賦予最先進的強化學習智能體後,可以更加數據高效的方式完成任務。

對這些智能體而言,GQN中的信息可以看做是對環境的「先天」知識。

相關研究

GQN同樣構建於諸多前人的探索基礎之上,DeepMind正式列出的相關研究就達到128篇,而且聲明僅列出了一小部分。

這些相關的研究從1971年,一直延續到2018年3月。

其中排在第一位的,也是曾經刊載在Science上的著名研究:心理旋轉實驗。這個實驗表明:表象這一心理現象是客觀存在的,外界刺激進入大腦並非進入黑箱,而這個實驗也揭露了信息在大腦中進行加工的過程。

如果你對128篇相關研究感興趣,傳送門在此:

t.cn/RB9WmLX

與之前的研究相比,DeepMind展示了一種學習物理場景緊湊、基礎表示的新方法,而且這個方法不需要特定領域工程或耗時的場景內容標記。也就是說,這個模型可以應用於各種不同的環境。

而且這個方法還雪城了一個強大的神經渲染器,可以從新的視角生成精確的場景圖像。

當然DeepMind也在博客中表示,與更傳統的計算機視覺技術相比,新方法仍然有很多限制,目前也只接受過合成場景的訓練。

不過隨著新的數據源出現,加之硬體能力的進展,DeepMind準備研究GQN在更高解析度的真實場景中的應用。展望未來,DeepMind表示會探索GQN更多的場景理解能力,例如跨空間和時間學習物理和運動的常識概念,以及在虛擬和增強現實中的應用。

「儘管在實際應用之前還有非常多的研究需要完成,但我們相信這個工作是邁向完全自主場景理解的一大步。」DeepMind說。

多方評價

畢竟也是登上Science的論文了,DeepMind官宣幾個小時後,在Twitter和Reddit收到了大量圍觀和評價。

「話癆」型谷歌大腦的研究人員David Ha稱讚這是來自「夢之隊」DeepMind的炫酷研究。「環境生成模型可為自動學習理解周圍世界的機器鋪平道路。」他給出了肯定評價。

日本AI獨角獸Preferred Networks(PFN)聯合創始人岡野原大輔(Daisuke Okanohara)認為,GQN通過幾個視角的觀察就能將3D世界表示成本徵向量,又能從新視角重現出場景,「這項研究顯示出神經網路可以通過無監督方式學習這樣的能力,真是個突破。」

Twitter機器學習界網紅AlteredQualia認為這是「相當瘋狂的」的一項研究,澳大利亞數據科學家、psyoa.org董事會成員Tom Wallis評價GQN「在場景理解上效果驚人」……

雖然很多大牛力挺,但……Reddit上的很多程序員卻認為這項研究沒有所說的那麼完美。

ID為court_of _ai的網友認為這項研究有些讓他失望:

視覺效果不錯,但也只是一個典型的過擬合練習。就用一堆玩具似的世界,用大量數據提煉出vanilla conditional deconvs。……但這怎麼能算一個突破?

網友seann999認為,若想應用這項成果到實際研究中,那恐怕有點難度:

結果真的很酷,但是在典型的導航任務(比如IRL或3D迷宮遊戲)中,你通常不會得到真實的當前相機視角/位置,所以我認為它應用起來非常困難。

僅從圖像和動作序列進行三維表示學習和環境重構可能更具挑戰性,特別是在隨機環境中。

還有一些網友因此開始懷疑Science是不是給DeepMind放水了:

Deepmind技術性地「收買」了這些大型期刊,他們近期發表在《科學》/《自然》上的論文我們很難當真。他們的很多研究都非常棒,但為什麼要這樣炒作呢:(

論文傳送門

Anyway,這篇論文還是非常值得一讀,傳送門在此:

science.sciencemag.org/

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態

推薦閱讀:

請問 《法國男子乘坐懸浮滑板飛行2250米 打破世界紀錄》 懸浮滑板的原理是什麼?
開發一個 Windows 級別的操作系統難度有多大?
如何愛上水利、化工、土木、冶金這樣的傳統工科?
50歲的黑科技大會還能有驚喜嗎?
目前來說SATA 6Gbps的替代方案是什麼?

TAG:DeepMind | 人工智慧 | 科技 |