像人一樣腦補世界!DeepMind歷時一年半搞出GQN,登上Science
來自專欄量子位
夏乙 安妮 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
歷時一年半的研發之後,新成果浮出水面 。
被稱為人工智慧「夢之隊」的DeepMind,剛剛在Science上發表論文,提出一種像人類一樣具備「腦補」世界能力的AI:GQN(Generative Query Network)。
GQN能夠基於2D圖像,重建/腦補出整個場景的3D表示。
「與嬰兒和動物非常相似,GQN通過理解對周圍環境的觀察來學習。」DeepMind在官方博客中稱這個學習方式,就像人類一樣。
DeepMind的創始人兼CEO哈薩比斯表示,他一直都對大腦如何重現圖像非常著迷,而這次提出的GQN模型可以根據幾個2D快照重現3D場景表示,還能從任何角度渲染出來。
這個AI高級在哪?
你可能已經從前邊的描述中注意到,它是一種無監督學習模型,連訓練的圖像都是自己獲取的。
而現在那些很厲害的計算機視覺系統,都是監督學習的成果,它們需要用人類製造的大規模標註圖像數據集來訓練,這就限制了數據集包含場景的範圍,進而限制了這種數據所訓練出來的視覺系統的能力。
論文一作、DeepMind研究員Ali Eslami說,監督學習超級成功,但它還是無法讓人滿足。有這樣兩個原因:第一,人類需要手動創建數據集來訓練它,這種操作又貴又不全面;第二,人類嬰兒和高級哺乳動物都不是這麼學習的。
如果要開發在現實世界裡可用的複雜機器,想讓AI完全理解周邊環境,知道能就近坐在哪、旁邊的沙發是什麼材質、地上的影子是哪個光源製造出來的、又該去哪關燈,就需要換一個思路。
DeepMind新提出的GQN,就是這樣一種新思路。
兩個網路
GQN模型由兩部分組成:一個表示網路、一個生成網路。
表示網路將智能體觀察到的圖像作為輸入,然後生成一個描述潛在場景的表示(向量)。
生成網路的任務是從一個之前沒有觀察到的角度,來預測(也可以叫「想像」)出這個潛在的場景。
表示網路並不知道人類會讓生成網路從哪些視角來預測,所以,它必須有效地描繪出整個場景的真實布局。
在這個過程中,它會先構建一個簡單的分布表示,抓住最重要的元素,比如物體的位置、顏色和整個房間的布局。在訓練過程中,生成器了解了這個環境中典型的物體、特性、關係、規則。這些兩個網路共享的「概念」讓表示網路可以用高度壓縮、概略的方式來描述場景,讓生成網路在有必要的時候去補全細節。
比如說,一個藍色立方體,在表示網路那裡就是一組數字,而生成網路知道在不同角度該用怎樣的像素來呈現它。
四大特性
DeepMind在模擬的三維世界中,基於多個程序生成的環境,對GQN進行了一系列受控實驗。其中的多個物體的位置、顏色、形狀、紋理、光源都是隨機生成,並且伴隨著重度的遮擋。
在這些環境中進行訓練之後,GQN被用於新的場景。DeepMind在實驗中,發現了GQN的幾個重要特性。
第一,GQN能以非常精確的方式,從全新的視角「想像/腦補」出以前從未見過的場景。只要給出一個場景表示和新的攝像機視點後,GQN就能生成清晰的圖像,無需實現規定透視、遮擋或光線規則。
效果請看下面幾個演示,左邊是觀察到的2D圖片,右邊是GQN「腦補」出的世界。
第二,GQN學會對對象進行計數、定位和分類,而且無需任何對象級標籤。儘管露出的表示部分可能非常小,但GQN的預測仍然高度準確,幾乎可以亂真。這意味著GQN能夠準確感知。
效果請看下圖,同樣左邊是觀察,右邊是腦補:
第三,GQN能夠表示、衡量和減少不確定性。即便內容不是完全可見,GQN也能應付場景中的不確定性,並將場景中的多個局部視圖組合起來,形成一個整體。
這事兒挺難,人都不一定能做好。GQN能力如何?見下圖所示。有一類是第一人稱視角的預測:
有一類是自上而下的視角預測:
第四,GQN能夠進行穩健、數據高效的強化學習。與無模型的基線智能體相比,把GQN的緊湊表示賦予最先進的強化學習智能體後,可以更加數據高效的方式完成任務。
對這些智能體而言,GQN中的信息可以看做是對環境的「先天」知識。
相關研究
GQN同樣構建於諸多前人的探索基礎之上,DeepMind正式列出的相關研究就達到128篇,而且聲明僅列出了一小部分。
這些相關的研究從1971年,一直延續到2018年3月。
其中排在第一位的,也是曾經刊載在Science上的著名研究:心理旋轉實驗。這個實驗表明:表象這一心理現象是客觀存在的,外界刺激進入大腦並非進入黑箱,而這個實驗也揭露了信息在大腦中進行加工的過程。
如果你對128篇相關研究感興趣,傳送門在此:
http://t.cn/RB9WmLX
與之前的研究相比,DeepMind展示了一種學習物理場景緊湊、基礎表示的新方法,而且這個方法不需要特定領域工程或耗時的場景內容標記。也就是說,這個模型可以應用於各種不同的環境。
而且這個方法還雪城了一個強大的神經渲染器,可以從新的視角生成精確的場景圖像。
當然DeepMind也在博客中表示,與更傳統的計算機視覺技術相比,新方法仍然有很多限制,目前也只接受過合成場景的訓練。
不過隨著新的數據源出現,加之硬體能力的進展,DeepMind準備研究GQN在更高解析度的真實場景中的應用。展望未來,DeepMind表示會探索GQN更多的場景理解能力,例如跨空間和時間學習物理和運動的常識概念,以及在虛擬和增強現實中的應用。
「儘管在實際應用之前還有非常多的研究需要完成,但我們相信這個工作是邁向完全自主場景理解的一大步。」DeepMind說。
多方評價
畢竟也是登上Science的論文了,DeepMind官宣幾個小時後,在Twitter和Reddit收到了大量圍觀和評價。
「話癆」型谷歌大腦的研究人員David Ha稱讚這是來自「夢之隊」DeepMind的炫酷研究。「環境生成模型可為自動學習理解周圍世界的機器鋪平道路。」他給出了肯定評價。
日本AI獨角獸Preferred Networks(PFN)聯合創始人岡野原大輔(Daisuke Okanohara)認為,GQN通過幾個視角的觀察就能將3D世界表示成本徵向量,又能從新視角重現出場景,「這項研究顯示出神經網路可以通過無監督方式學習這樣的能力,真是個突破。」
雖然很多大牛力挺,但……Reddit上的很多程序員卻認為這項研究沒有所說的那麼完美。
ID為court_of _ai的網友認為這項研究有些讓他失望:
視覺效果不錯,但也只是一個典型的過擬合練習。就用一堆玩具似的世界,用大量數據提煉出vanilla conditional deconvs。……但這怎麼能算一個突破?
網友seann999認為,若想應用這項成果到實際研究中,那恐怕有點難度:
結果真的很酷,但是在典型的導航任務(比如IRL或3D迷宮遊戲)中,你通常不會得到真實的當前相機視角/位置,所以我認為它應用起來非常困難。
僅從圖像和動作序列進行三維表示學習和環境重構可能更具挑戰性,特別是在隨機環境中。
還有一些網友因此開始懷疑Science是不是給DeepMind放水了:
Deepmind技術性地「收買」了這些大型期刊,他們近期發表在《科學》/《自然》上的論文我們很難當真。他們的很多研究都非常棒,但為什麼要這樣炒作呢:(
論文傳送門
Anyway,這篇論文還是非常值得一讀,傳送門在此:
http://science.sciencemag.org/content/360/6394/1204.full
— 完 —
歡迎大家關注我們的專欄:量子位 - 知乎專欄
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
量子位 QbitAI · 頭條號簽約作者
?? ? 追蹤AI技術和產品新動態
推薦閱讀:
※請問 《法國男子乘坐懸浮滑板飛行2250米 打破世界紀錄》 懸浮滑板的原理是什麼?
※開發一個 Windows 級別的操作系統難度有多大?
※如何愛上水利、化工、土木、冶金這樣的傳統工科?
※50歲的黑科技大會還能有驚喜嗎?
※目前來說SATA 6Gbps的替代方案是什麼?