淺談人工智慧:現狀、任務、構架與統一(中) | 朱松純
來自專欄風雲之聲29 人贊了文章
(接上篇)
第五節 計算機視覺:從「深」到「暗」 Dark, Beyond Deep
視覺是人腦最主要的信息來源,也是進入人工智慧這個殿堂的大門。我自己的研究也正是從這裡入手的。這一節以一個具體例子來介紹視覺裡面的問題。當然,很多問題遠遠沒有被解決。
這是我家廚房的一個視角。多年前的一個下午,我女兒放學回家,我正在寫一個大的項目申請書,就拍了這一張作為例子。圖像就是一個像素的二維矩陣,可是我們感知到非常豐富的三維場景、行為的信息;你看的時間越長,理解的也越多。下面我列舉幾個被主流(指大多數研究人員)忽視的、但是很關鍵的研究問題。
一、幾何常識推理與三維場景構建。以前計算機視覺的研究,需要通過多張圖像(多視角)之間特徵點的對應關係,去計算這些點在三維世界坐標系的位置(SfM、SLAM)。其實人只需要一張圖像就可以把三維幾何估算出來。最早我在2002與一個學生韓峰發表了一篇文章,受到當時幾何學派的嘲笑:一張圖像怎麼能計算三維呢,數學上說不通呀。其實,在我們的人造環境中,有很多幾何常識和規律:比如,你坐的椅子高度就是你小腿的長度約16英寸,桌子約30英寸,案台約35英寸,門高約80英寸 --- 都是按照人的身體尺寸和動作來設計的。另外,人造環境中有很多重複的東西,比如幾個窗戶一樣大小一致,建築設計和城市規劃都有規則。這些就是geometric common sense,你根據這些幾何的約束就可以定位很多點的三維位置,同時估計相機位置和光軸。
見下圖所示,在這個三維場景中,我們的理解就可以表達成為一個層次分解(compositional)的時空因果的解譯圖(Spatial,Temporal and Causal Parse Graph),簡稱 STC-PG。STC-PG是一個極其重要的概念,我下面會逐步介紹。
幾何重建的一個很重要的背景是,我們往往不需要追求十分精確的深度位置。比如,人對三維的感知其實都是非常不準的,它的精確度取決於你當前要執行的任務。在執行的過程中,你不斷地根據需要來提高精度。比如,你要去拿幾米以外的一個杯子,一開始你對杯子的方位只是一個大致的估計,在你走近、伸手的過程中逐步調整精度。
這就回到上一節談的問題,不同任務對幾何與識別的精度要求不一樣。這是人腦計算非常高效的一個重要原因。最近,我以前一個博士後劉曉白(現在是助理教授)和我其他學生在這方面取得了很好進展,具體可以查看他們相關文章。
二、場景識別的本質是功能推理。現在很多學者做場景的分類和分割都是用一些圖像特徵,用大量的圖片例子和手工標註的結果去訓練神經網路模型 --- 這是典型的「鸚鵡」模式。而一個場景的定義本質上就是功能。當你看到一個三維空間之後,人腦很快就可以想像我可以幹什麼:這個地方倒水,這裡可以拿杯子,這裡可以坐著看電視等。現代的設計往往是複合的空間,就是一個房間可以多種功能,所以簡單去分類已經不合適了。比如,美式廚房可以做飯、洗菜、用餐、聊天、吃飯。卧室可以睡覺、梳妝、放衣服、看書。場景的定義是按照你在裡面能夠幹什麼,這個場景就是個什麼,按照功能劃分,這些動作都是你想像出來的,實際圖像中並沒有。人腦感知的識別區與運動規劃區是直接互通的,相互影響。我的博士學生趙一彪就是做這個的,他畢業去了MIT做認知科學博後,現在創立了一家自動駕駛的AI公司。
為了想像這些功能,人腦有十分豐富的動作模型,這些動作根據尺度分為兩類(見下圖)。第一類(左圖)是與整個身體相關的動作,如坐、站、睡覺、工作等等;第二類(右圖)是與手的動作相關的,如砸、剁、鋸、撬等等。這些四維基本模型(三維空間加一維時間)可以通過日常活動記錄下來,表達了人的動作和傢具之間,以及手和工具之間的關係。正因為這一點,心理學研究發現我們將物體分成兩大類,分別存放在腦皮層不同區域:一類是跟手的大小有關,跟手的動作相關的,如你桌上的東西;另一類是跟身體有關,例如傢具之類。
有了這個理解,我們就知道:下面兩張圖,雖然圖像特徵完全不同,但是他們是同一類場景,功能上是等價的。人的活動和行為,不管你是哪個國家、哪個歷史時期,基本是不變的。這是智能泛化的基礎,也就是把你放到一個新的地區,你不需要大數據訓練,馬上就能理解、適應。這是我們能夠舉一反三的一個基礎。
回到前面的那個STC-PG解譯圖,每個場景底下其實就分解成為一些動作和功能 (見STC-PG圖中的綠色方片節點)。由計算機想像、推理的各種功能決定對場景的分類。想像功能就是把人的各種姿態放到三維場景中去擬合(見廚房解譯圖中人體線畫)。這是完全不同於當前的深度學習方法用的分類方法。
三、物理穩定性與關係的推理。我們的生活空間除了滿足人類的各種需求(功能、任務)之外,另一個基本約束就是物理。我們對圖像的解釋和理解被表達成為一個解譯圖,這個解譯圖必須滿足物理規律,否則就是錯誤的。比如穩定性是人可以快速感知的,如果你發現周圍東西不穩,要倒了,你反應非常快,趕緊閃開。最近我們項目組的耶魯大學教授Brian Scholl的認知實驗發現,人對物理穩定性的反應是毫秒級,第一反應時間大約100ms。
我們對圖像的理解包含了物體之間的物理關係,每個物體的支撐點在那裡。比如,下面這個圖,吊燈和牆上掛的東西,如果沒有支撐點,就會掉下來(右圖)。這個研究方向,MIT認知科學系的Josh Tenenbuam教授與我都做了多年。
我提出了一個新的場景理解的minimax標準:minimize instability and maximize functionality最小化不穩定性且最大化功能性。這比以前我們做圖像理解的用的MDL(最小描述長度)標準要更靠譜。這是解決計算機視覺的基本原理,功能和物理是設計場景的基本原則。幾何尺寸是附屬於功能推出來的,比如椅子的高度就是因為你要坐得舒服,所以就是你小腿的長度。
回到我家廚房的例子,你就會問,那裡面的水是如何被檢測到的呢?水是看不見的,花瓶和水壺裡的水由各種方式推出來的。另外,你可能注意到,桌上的番茄醬瓶子是倒立著,為什麼呢?你可能很清楚,你家的洗頭膏快用完的時候,瓶子是不是也是的倒著放的呢?這就是對粘稠液體的物理和功能理解之後的結果。由此,你可以看到我們對一個場景的理解是何等「深刻」,遠遠超過了用深度學習來做的物體分類和檢測。
四、意向、注意和預測。廚房那張圖有一個人和一隻狗,我們可以進一步識別其動作、眼睛注視的地方,由此推導其動機和意向。這樣我們可以計算她在幹什麼、想幹什麼,比如說她現在是渴了,還是累了。通過時間累積之後,進而知道她知道哪些,也就是她看到了或者沒有看到什麼。在時間上做預測,她下面想幹什麼。只有把這些都計算出來了,機器才能更好地與人進行交互。
所以,雖然我們只看到一張圖片,那張STC-PG中,我們增加了時間維度,對人和動物的之前和之後的動作,做一個層次的分析和預測。當機器人能夠預判別人的意圖和下面的動作,那麼它才能和人進行互動和合作。後面,我們講的語言對話可以幫助人機互動和合作;但是,我們日常很多交互協助,靠的是默契,不需要言語也能做不少事。
下面的這一張圖,是多攝像機的一個綜合場景的解譯實例。這是我的實驗室做出來的一個視覺系統。這個視頻的理解就輸出為一個大的綜合的STC-PG。在此基礎上,就可以輸出文字的描述(I2T)和回答提問 QA。我們把它叫做視覺圖靈測試,網址:http://visualturingtest.com。
與第一節講的機器人競賽類似,這也是一個DARPA項目。測試就是用大量視頻,我們算出場景和人的三維的模型、動作、屬性、關係等等,然後就來回答各種各樣的1000多個問題。現在一幫計算機視覺的人研究VQA(視覺問答),就是拿大量的圖像和文本一起訓練,這是典型的「鸚鵡」系統,基本都是「扯白」。回答的文字沒有真正理解圖像的內容,常常邏輯不通。我們這個工作是在VQA之前,認真做了多年。我們系統在項目DARPA測試中領先,當時其它團隊根本無法完成這項任務。可是,現在科研的一個現實是走向「娛樂化」:膚淺的歌曲流行,大家都能唱,複雜高深的東西大家躲著走。
既然說到這裡,我就順便說說一些競賽的事情。大約從2008年開始,CVPR會議的風氣就被人「帶到溝里」了,組織各種數據集競賽,不談理解了,就是數字挂帥。中國很多學生和團隊就開始參與,俗稱「刷榜」。我那個時候跟那些組織數據集的人說(其實我自己2005年是最早在湖北蓮花山做大型數據標註的,但我一早就看到這個問題,不鼓勵刷榜),你們這些比賽前幾名肯定是中國學生或者公司。現在果然應驗了,大部分榜上前幾名都是中國人名字或單位了。咱們刷榜比打乒乓球還厲害,刷榜變成咱們AI研究的「國球」。所謂刷榜,一般是下載了人家的代碼,改進、調整、搭建更大模塊,這樣速度快。我曾經訪問一家技術很牛的中國公司(不是搞視覺的),那個公司的研發主管非常驕傲,說他們刷榜總是贏,美國一流大學都不在話下。我聽得不耐煩了,我說人家就是兩個學生在那裡弄,你們這麼大個團隊在這裡刷,你代碼裡面基本沒有演算法是你自己的。如果人家之前不公布代碼,你們根本沒法玩。很多公司就拿這種刷榜的結果宣傳自己超過了世界一流水平。
五、任務驅動的因果推理與學習。前面我談了場景的理解的例子,下面我談一下物體的識別和理解,以及為什麼我們不需要大數據的學習模式,而是靠舉一反三的能力。
我們人是非常功利的社會動物,就是說做什麼事情都是被任務所驅動的。這一點,2000年前的司馬遷就已經遠在西方功利哲學之前看到了( 《史記》 「貨殖列傳」 ):
「天下熙熙,皆為利來;天下攘攘,皆為利往。」
那麼,人也就帶著功利的目的來看待這個世界,這叫做「teleological stance」。這個物體是用來幹什麼的?它對我有什麼用?怎麼用?
當然,有沒有用是相對於我們手頭的任務來決定的。很多東西,當你用不上的時候,往往視而不見;一旦要急用,你就會當個寶。俗話叫做「勢利眼」,沒辦法,這是人性!你今天幹什麼、明天幹什麼,每時每刻都有任務。俗話又叫做「屁股決定腦袋」,一個官員坐在不同位置,他就有不同的任務與思路,位置一調,馬上就「物是人非」了。
我們的知識是根據我們的任務來組織的。那麼什麼叫做任務呢?如何表達成數學描述呢?
每個任務其實是在改變場景中的某些物體的狀態。牛頓發明了一個詞,在這裡被借用了:叫做fluent。這個詞還沒被翻譯到中文,就是一種可以改變的狀態,我暫且翻譯為「流態」吧。比如,把水燒開,水溫就是一個流態;番茄醬與瓶子的空間位置關係是一個流態,可以被擠出來;還有一些流態是人的生物狀態,比如餓、累、喜悅、悲痛;或者社會關係:從一般人,到朋友、再到密友等。人類和動物忙忙碌碌,都是在改變各種流態,以提高我們的價值函數(利益)。
懂得這一點,我們再來談理解圖像中的三維場景和人的動作。其實,這就是因果關係的推理。所謂因果就是:人的動作導致了某種流態的改變。理解圖像其實與偵探(福爾摩斯)破案一樣,他需要的數據往往就是很小的蛛絲馬跡,但是,他能看到這些蛛絲馬跡,而普通沒有受偵探訓練的人就看不見。那麼,如何才能看到這些蛛絲馬跡呢?其一、你需要大量的知識,這個知識來源於圖像之外,是你想像的過程中用到的,比如一個頭髮怎麼掉在這裡的?還有就是行為的動機目的,犯案人員到底想改變什麼「流態」?
我把這些圖像之外的東西統稱為「暗物質」——Dark Matter。物理學家認為我們可觀察的物質和能量只是占宇宙總體的5%,剩下的95%是觀察不到的暗物質和暗能量。視覺與此十分相似:感知的圖像往往只佔5%,提供一些蛛絲馬跡;而後面的95%,包括功能、物理、因果、動機等等是要靠人的想像和推理過程來完成的。
有了這個認識,我們來看一個例子(見下圖左)。這個例子來自我們CVPR2015年發的paper,主要作者是朱毅鑫,這也是我很喜歡的一個工作。一個人要完成的任務是砸核桃,改變桌子上那個核桃的流態。把這個任務交給UCLA一個學生,他從桌面上的工具裡面選擇了一個鎚子,整個過程沒有任何過人之處,因為你也會這麼做。
不過你細想一下,這個問題還相當複雜。這個動作就包含了很多信息:他為什麼選這個鎚子而不選別的東西,他為什麼拿著錘這個柄靠後的位置?他揮動的力度用多少,這都是經過計算的。這還有幾千幾萬的可能其他各種選擇、解法,他沒有選擇,說明他這個選法比其它的選擇肯定會好,好在哪呢?看似簡單的問題,往往很關鍵,一般人往往忽略了。你通過這一琢磨、一對比就領悟到這個任務是什麼,有什麼竅門。以前學徒就是跟著師傅學,師傅經常在做任務,徒弟就看著,師傅也不教,徒弟就靠自己領悟。有時候師傅還要留一手,不然你早早出師了,搶他的飯碗。有時候師傅擋著不讓你看;莫言的小說就有這樣的情節。人就是在觀察的時候,把這個任務學會了。現在到一個新的場景(圖右),原來學習的那些工具都不存在了,完全是新的場景和物體,任務保持不變。你再來砸這個核桃試試看,怎麼辦?人當然沒有問題,選這個木頭做的桌子腿,然後砸的動作也不一樣。這才是舉一反三,這才是智能,這沒有什麼其他數據,沒有大量數據訓練,這不是深度學習方法。
那這個演算法怎麼做的呢?我們把對這個物理空間、動作、因果的理解還是表達成為一個Spatial,Temporal and Causal Parse Graph(STC-PG)。這個STC-PG包含了你對空間的理解(物體、三維形狀、材質等)、時間上動作的規劃、因果的推理。最好是這樣子砸,它物理因果能夠實現,可能會被砸開,再連在一塊來求解,求時間、空間和因果的這麼一個解析圖,就是一個解。也就是,最後你達到目的,改變了某種物理的流態。我再強調幾點:
一、這個STC-PG的表達是你想像出來的。這個理解的過程是在你動手之前就想好了的,它裡面的節點和邊大多數在圖像中是沒有的,也就是我稱作的「暗物質」。
二、這個計算的過程中,大量的運算屬於「top-down」自頂向下的計算過程。也就是用你腦皮層裡面學習到的大量的知識來解釋你看到的「蛛絲馬跡」,形成一個合理的解。而這種Top-down的計算過程在目前的深度多層神經網路中是沒有的。神經網路只有feedforward向上逐層傳播信息。你可能要說了,那不是有Back-propagation嗎?那不是top-down。一年前,LeCun來UCLA做講座,他看到我在座,就說DNN目前缺乏朱教授一直提倡的Top-Down計算進程。
三、學習這個任務只需要極少的幾個例子。如果一個人要太多的例子,說明Ta腦袋「不開竅」,智商不夠。順便說一句,我在UCLA講課,期末學生會給老師評估教學質量。一個常見的學生意見就是朱教授給的例子太少了。對不起,我沒時間給你上課講那麼多例子,靠做題、題海訓練,那不是真本事,也不是學習的本質。子曰:「學而不思則罔,思而不學則殆」。這裡的「思」應該是推理,對於自然界或者社會的現象、行為和任務,形成一個符合規律的自洽的解釋,在我看來就是一個STC-PG。
那麼STC-PG是如何推導出來的呢?它的母板是一個STC-AOG,AOG就是And-Or Graph與或圖。這個與或圖是一個複雜的概率語法圖模型,它可以導出巨量的合乎規則的概率事件,每一個事件就是STC-PG。這個表達與語言、認知、機器人等領域是一致的。在我看來,這個STC-AOG是一個統一表達,它與邏輯以及DNN可以打通關節。這裡就不多講了。
接著砸核桃的例子講,還是朱毅鑫那篇文章的實驗,這個實驗很難做。比如現在的一個任務是「鏟土」,我給你一個例子什麼叫鏟土,然後開始測試這個智能演算法(機器人)的泛化能力。見下圖。
第一組實驗(圖左)。我給你一些工具,讓你鏟土,機器人第一選擇挑了這個鏟子,這個不是模式識別,它同時輸出用這個鏟子的動作、速度;輸出鏟子柄的綠色地方表示它要手握的地方,這個紅的表示它用來鏟土的位置。第二選擇是一把刷子。
第二組實驗(圖中)。假如我要把這些工具拿走,你現在用一些家裡常見的物體,任務還是鏟土。它的第一選擇是鍋,第二選擇是杯子。二者的確都是最佳選擇。這是計算機視覺做出來的,自動的。
第三組實驗(圖右)。假如我們回到石器時代,一堆石頭能幹什麼事情?所以我經常說,咱們石器時代的祖先,比現在的小孩聰明。因為他們能夠理解這個世界的本質,現在,工具和物體越來越特定了,一個工具做一個任務,人都變成越來越傻了。視覺認知就退化成模式識別的問題了:從原來工具的理解變成一個模式識別。也就是由烏鴉變鸚鵡了。
計算機視覺小結:我簡短總結一下視覺的歷史。見下圖。
視覺研究前面25年的主流是做幾何,以形狀和物體為中心的研究:Geometry-Based andObject-Centered。最近25年是從圖像視角通過提取豐富的圖像特徵描述物體的外觀來做識別、分類: Appearance-Based and View-Centered。幾何當然決定表觀。那麼幾何後面深處原因是什麼呢?幾何形狀的設計是因為有任務,最頂層是有任務,然後考慮到功能、物理、因果,設計了這些物體再來產生圖像,這是核心問題所在。我把在當前圖像是看不見的「東西」叫dark matter。物理裡面dark matter energy佔95%,確確實實在我們智能裡面dark matter也佔了大部分。而你看到的東西就是現在深度學習能夠解決的,比如說人臉識別、語音識別,就是很小的一部分看得見的東西;看不見的在後面,才是我們真正的智能,像那個烏鴉能做到的。
所以,我的一個理念是:計算機視覺要繼續發展,必須發掘這些「dark matter」。把圖像中想像的95%的暗物質與圖像中可見的5%的蛛絲馬跡,結合起來思考,才能到達真正的理解。現在大家都喜歡在自己工作前面加一個Deep,以為這樣就算深刻了、深沉了,但其實還是非常膚淺的。不管你多深,不管你卷積神經網路多少層,它只是處理可見的圖像表觀特徵、語音特徵,沒有跳出那5%,對吧?那些認為深度學習解決了計算機視覺的同學,我說服你了么?如果沒有,後面還有更多的內容。
視覺研究的未來,我用一句話來說:Go Dark, Beyond Deep ——發掘暗,超越深。
這樣一來,視覺就跟認知和語言接軌了。
第六節 認知推理:走進內心世界
上一節講到的智能的暗物質,已經屬於感知與認知的結合了。再往裡面走一步,就進入人與動物的內心世界Mind, 內心世界反映外部世界,同時受到動機任務的影響和扭曲。研究內涵包括:
· Ta看到什麼了?知道什麼了?什麼時候知道的?這其實是對視覺的歷史時間求積分。
· Ta現在在關注什麼?這是當前的正在執行的任務。
· Ta的意圖是什麼?後面想幹什麼?預判未來的目的和動機。
· Ta喜歡什麼?有什麼價值函數?這在第九節會談到具體例子。
自從人工智慧一開始,研究者就提出這些問題,代表人物是Minsky:society of minds,心理學研究叫做Theory of minds。到2006年的時候,MIT認知科學系的Saxe與Kanwisher(她是我一個項目合作者)發現人的大腦皮層有一個專門的區,用於感受、推理到別人的想法:我知道你在想什麼、幹什麼。這是人工智慧的重要部分。
說個通俗的例子,你可能聽到過這樣的社會新聞:某男能夠同時與幾個女朋友維持關係,而且不被對方發現,就是他那幾個女朋友互相不知情。這其實很難做到,因為你一不小心就要暴露了。他需要記住跟誰說過什麼謊話、做過或者答應過什麼事。這種人的這個腦皮層區一定是特別發達,而他的那些女朋友的這個區可能不那麼發達。電影中的間諜需要特別訓練這方面的「反偵察」能力,就是你盡量不讓對方發現你的內心。這是極端狀況。現實生活中,一般非隱私性的活動中,我們是不設防的,也就是「君子坦蕩蕩」。
不光是人有這個偵察與反偵察的能力,動物也有(見上圖)。比如說這個鳥(圖左),它藏果子的時候,會查看周圍是否有其它鳥或者動物在那裡看到它;如果有,它就不藏,它非要找到沒人看它的時候和地方藏。這就是它在觀察你,知道你知道什麼。圖中是一個狐狸和水獺對峙的視頻。水獺抓到魚了以後,發現這個狐狸在岸上盯著它呢,它知道這個狐狸想搶它嘴裡叼著的魚。水獺就想辦法把魚藏起來,它把這個魚藏到水底下,然後這個狐狸去找。這說明了動物之間互相知道對方在想什麼。
小孩從一歲多的時候開始就有了這個意識。一個關鍵反應證據是:他會指東西給你看,你看到了、還是沒看到的,他會知道。Felix Warneken現在在哈佛大學當心理學系的助理教授。他當博士生的時候做過一系列心理實驗。一般一歲多的小孩能知道給你開門,小孩很樂意、主動去幫忙。小孩很早就知道跟人進行配合,這就是人機交互。你把這個小孩看成一個機器人的話,你要設計一個機器人,就是希望它知道看你想幹什麼,這是人工智慧的一個核心表現。
儘管人工智慧和認知科學,以及最近機器人領域的人都對這個問題感興趣,但是,大家以前還都是嘴上、紙上談兵,用的是一些toy examples作為例子來分析。要做真實世界的研究,就需要從計算機視覺入手。計算機視覺裡面的人呢,又大部分都在忙著刷榜,一時半會還沒意思到這是個問題。我的實驗室就捷足先登,做了一些初步的探索,目前還在積極推進之中。
我們首先做一個簡單的試驗,如上圖。這個人在廚房裡,當前正在用微波爐。有一個攝像頭在看著他,就跟監控一樣,也可以是機器人的眼睛(圖左)。首先能夠看到他目前在看什麼(圖中),然後,轉換視角,推算他目前看到了什麼(圖右)。
上面這個圖是實驗的視頻的截圖。假設機器人事先已經熟悉某個三維房間(圖e),它在觀察一個人在房間裡面做事(圖a)。為了方便理解,咱們就想像這是一個養老院或者醫院病房,機器人需要知道這個人現在在幹什麼,看什麼(圖c)。它的輸入僅僅是一個二維的視頻(圖a)。它開始跟蹤這個人的運動軌跡和眼睛注視的地方,顯示在圖e的那些軌跡和圖f的行為分類。然後,圖d(右上角)是它估算出來的,這個人應該在看什麼的圖片。也就是,它把它附體到這個人身上,來感知。這個結果與圖b對比,非常吻合。圖b是這個人帶一個眼鏡,眼鏡有一個小攝像頭記錄下來的,他確實在看的東西。這個實驗結果是魏平博士提供的,他是西交大前校長鄭南寧老師那裡的一個青年教師,博士期間在我實驗室訪問,後來又回來進修。
這裡面需要推測動作與物體的時空交互,動作隨時間的轉換,手眼協調。然後,進一步猜他下面幹什麼,意圖等等。這個細節我不多講了。
對這個人內心的狀態,也可以用一個STC-AOG 和STC-PG 來表達的,見下圖,大致包含四部分。
一、時空因果的概率「與或圖」,STC-AOG。它是這個人的一個總的知識,包含了所有的可能性,我待會兒會進一步闡述這個問題。 剩下的是他對當前時空的一個表達,是一個STC-PG解譯圖。此解譯圖包含三部分,圖中表達為三個三角形,每個三角形也是一個STC-PG解譯圖。
二、當前的情景situation,由上圖的藍色三角形表示。當前的情況是什麼,這也是一個解,表示視覺在0-t時間段之間對這個場景的理解的一個解譯圖。
三、意向與動作規劃圖,由上圖的綠色三角形表示。這也是一個層次化的解譯圖,預判他下面還會做什麼事情,
四、當前的注意力,由上圖的紅色三角形表示。描述他正在關注什麼。
把這整個解譯圖放在一塊,基本上代表著我們腦袋的過去、現在、未來的短暫時間內的狀態。用一個統一的STC-PG 和 STC-AOG來解釋。 這是一個層次的分解。 因為是Composition, 它需要的樣本就很少。
有人要說了,我的深度神經網路也有層次,還一百多層呢。我要說的是,你那一百多層其實就只有一層,對不對?因為你從特徵做這個識別,中間的東西是什麼你不知道,他不能去解釋中間那些過程,只有最後一層輸出物體類別。
上面說的這個表達,是機器人對某個人內心狀態的一個估計,這個估計有一個後驗概率,這個估計不是唯一的,存在不確定性。而且,它肯定不是真相。不同的人觀察某個人,可能估計都不一樣。那麼在一個機器與人共生共存的環境中,假設這個場景里有N個機器人或者人,這裡面有很多N個「自我」minds。然後,每個人有對別人有一個估計,這就有N x(N-1)個minds表達。我知道你在想什麼,你知道我在想什麼,這至少是平方級的。你有一百個朋友的話,哪個朋友他腦袋裡想什麼你心裡都有數。關係越近,理解也就越深,越準確。
當然,我們這裡只是做一階推理,在複雜、對抗的環境中,人們不得不用多階的表達。當年司馬懿和諸葛亮在祁山對峙時,諸葛亮比司馬懿總是要多算一階。所謂兵不厭詐,就是有時候我故意把一個錯誤信息傳給你,《三國演義》中很多此類的精彩故事,比如周瑜打黃蓋、蔣干盜書。
我用下面這個圖來大致總結一下。兩個人A與B或者一個人一個機器人,他們腦袋裡面的表達模式。圖中是一個嵌套的遞歸結構,每一個橢圓代表一個大腦的內心mind。
每個mind除了上面談到的知識STC-AOG 和狀態STC-PG,還包含了價值函數,就是價值觀,和決策函數。價值觀驅動動作,然後根據感知、行動去改變世界,這樣因果就出來了。我後面再細談這個問題。
最底下中間的那個橢圓代表真實世界(「上帝」的mind,真相只有TA知道,我們都不知道),上面中間的那個橢圓是共識。多個人的話就是社會共識。在感知基礎上,大家形成一個統一的東西,共同理解,我們達成共識。比如,大家一起吃飯,菜上來了,大家都看到這個菜是什麼菜,如果沒有共識那沒法弄。比如,「指鹿為馬」或者「皇帝的新裝」,就是在這些minds之間出現了不一致的東西。這是所謂「認識論」裡面的問題。以前,在大學學習認識論,老師講得比較空泛,很難理解;現在你把表達寫出來,一切都清楚了。這也是人工智慧必須解決的問題。
我們要達成共識,共同的知識,然後在一個小的團體、大致社會達成共同的價值觀。當有了共同價值觀的時候,就有社會道德和倫理規範,這都可以推導出來了。俗話說,入鄉隨俗。當你加入一個新的團體或者社交群體,你可能先觀察看看大家都是怎麼做事說話的。機器人要與人共生共存必須理解人的團體的社會道德和倫理規範。所以說,這個認識論是機器人發展的必經之道。烏鴉知道人類在幹什麼,它才能夠利用這個在社會裡生存。
那麼如何達成共識呢?語言就是必要的形成共識的工具了。
第七節 語言通訊:溝通的認知基礎
我要介紹的人工智慧的第三個領域是語言、對話。最近我兩次在視覺與語言結合的研討會上做了報告,從我自己觀察的角度來談,視覺與語言是密不可分的。
人類的語言中樞是獨特的,有趣的是它在運動規劃區的附近。我們為什麼要對話呢?語言的起源就是要把一個人腦袋(mind)的一個信息表達傳給你一個人,這就包括上一節講的知識、注意、意向計劃,歸納為圖中那三個三角形的表達。希望通過對話形成共識,形成共同的任務規劃,就是我們一致行動。所以,語言產生的基礎是人要尋求合作。
動物之間就已經有豐富的交流的方式,很多藉助於肢體語言。人的對話不一定用語言,手語、啞劇(pantomine)同樣可以傳遞很多信息。所以,在語言產生之前,人類就已經有了十分豐富的認知基礎,也就是上一節談的那些表達。沒有這樣的認知基礎,語言是空洞的符號,對話也不可能發生。
發育心理學實驗表明,12個月的小孩就可以知道去指東西,更小年齡就不會,但是很多動物永遠達不到這個水平。舉個例子,有人做了個實驗。一群大猩猩坐在動物園裡,一個猩猩媽媽帶一個小猩猩,玩著玩著小猩猩跑不見了,然後這個媽媽去找。周圍一大堆閑著的猩猩坐在那裡曬太陽,它們明明知道那個小猩猩去哪了。如果是人的話,我們就會熱心地指那個小孩的方向,人天生是合作的,去幫助別人的,助人為樂,所以這是為什麼我們人進化出來了。猩猩不會,猩猩不指,它們沒有這個動機,它們腦袋與人相比一定是缺了一塊。人和動物相比,我們之所以能夠比他們更高級,因為腦袋裡有很多通信的認知構架(就像多層網路通訊協議)在大腦皮層裡面,沒有這些認知構架就沒法通信。研究語言的人不去研究底下的認知構架,那是不會有很大出息的。下面這個圖來源於人類學的研究的一個領軍人物 Michael Tomasello。
除了需要這個認知基礎,語言的研究不能脫離了視覺對外部世界的感知、機器人運動的因果推理,否則語言就是無源之水、無本之木。這也就是為什麼當前一些聊天機器人都在「扯白」。
我們先來看一個最基本的的過程:信息的一次發送。當某甲(sender)要發送一條消息給某乙(receiver),這是一個簡單的通訊communication。這個通訊的數學模型是當年貝爾實驗室香農Shannon1948年提出來的資訊理論。首先把它編碼,因為這樣送起來比較短,比較快;針對雜訊通道,加些冗餘碼防錯;然後解碼,某乙就拿到了這個信息。見下圖。
在這個通訊過程之中他有兩個基本的假設。第一、這兩邊共享一個碼本,否則你沒法解碼,這是一個基本假設。第二、就是我們有個共享的外部世界的知識在裡面,我們都知道世界上正在發生什麼什麼事件,比如哪個股票明天要漲了,哪個地方要發生什麼戰爭了等等。我給你傳過去的這個信息其實是一個解譯圖的片段(PG:parse graph)。這個解譯圖的片段對於我們物理世界的一個狀態或者可能發生的狀態的描述。這個狀態也有可能就是我腦袋Mind裡面的一個想法、感覺、流態(fluents)。比如,很多女人拿起電話,叫做「煲粥」,就在交流內心的一些經歷和感受。
如果沒有這個共同的外部世界,那我根本就不知道你在說什麼。比如外國人聚在一起講一個笑話,我們可能聽不懂。我們中國人說「林黛玉」,那是非常豐富的一個文化符號,我們都明白誰是林黛玉,她的身世、情感、性格和價值觀,就輪到外國人聽不懂了。
Shannon的通訊理論只關心碼本的建立(比如視頻編解碼)和通訊帶寬(3G,4G,5G)。1948年提出資訊理論後,儘管有很多聰明人、數學根底很強的人進到這個領域,這個領域一直沒有什麼大的突破。為什麼?因為他們忽視了幾個更重大的認識論的問題,避而不談:
· 甲應該要想一下:乙腦袋裡面是否與甲有一個共同的世界模型?否則,解碼之後,乙也不能領會裡面的內容?或者會誤解。那麼我發這個信息的時候,措辭要盡量減少這樣的誤解。
· 甲還應該要想一下:為什麼要發這個信息?乙是不是已經知道了,乙關不關注這個信息呢?乙愛不愛聽呢?聽後有什麼反應?這一句話說出去有什麼後果呢?
· 乙要想一下:我為什麼要收這個信息呢?你發給我是什麼意圖?
這是在認知層面的,遞歸循環的認知,在編碼之外。所以,通訊理論就只管發送,就像以前電報大樓的發報員,收錢發報,他們不管你發報的動機、內容和後果。
縱觀人類語言,中國的象形文字實在了不起。所謂象形文字就完全是「明碼通訊」。每個字就是外部世界的一個圖片、你一看就明白了,不需要編解碼。我覺得研究自然語言的人和研究視覺統計建模的人,都要好好看看中國的甲骨文,然後,所有的事情都清楚了。每個甲骨文字就是一張圖,圖是什麼?代表的就是一個解譯圖的片段(fragment of parse graph)。
上面這個圖是一個漢字的演變和關係圖,從一本書叫做《漢字樹》得來的。幾年前,我到台灣訪問,發現這本叢書,很有意思。這個圖是從眼睛開始的一系列文字。
首先從具象的東西開始,這中間是一個眼睛,「目」字,把手搭在眼睛上面,孫悟空經常有這個動作,就是「看」(look)。
然後是會意,比如「省」,就是細看,明察秋毫,畫一個很小的葉子在眼睛上面,指示說你看葉子裡面的東西,表示你要細看。
然後開始表達抽象的概念,屬性attribute、時空怎麼表達,就是我們甲骨文裡面,表示出發、終止,表示人的關係,人的腦袋狀態,甚至表現倫理道德。就這樣,一直推演開。
所以,搞視覺認知的,要理解物體功能就要追溯到石器時代去,搞語言的要追溯到語言起源。
下圖是另一個例子:日、月、山、水、木;鳥、雞、魚、象、羊。下面彩色的圖是我們實驗室現在用計算機視覺技術從圖像中得到的一些物體的表達圖模型,其實就重新發明一些更具像的甲骨文。這項技術是由YiHong,司長長等博士做的無監督學習。他們的演算法發現了代表鳥的有頭、身子和腳、水波和水草等「類甲骨文」名詞符號。這種視覺的表達模型是可解釋explainable、直觀的。
所以,從生成式模型的角度來看,語言就是視覺,視覺就是語言。
再來看看動詞。考考你們,這是啥意思?第一個字,兩隻手,一根繩子,在拖地上一個東西,拿根繩子拽。第二個很簡單,洗手。第三是關門。第四是援助的援字,一隻手把另外一個人的手往上拉。第五也是兩個手,一個手朝下一個手朝上,啥意思?我給你東西,你接受。第六是爭奪的爭,兩個手往相反的方向搶。第七兩個人在聊天。基本上,字已經表示了人和人之間的動作細節。
現在我的實驗室里,計算機也能自動學出「類甲骨文」的動詞的表達,見下圖。我們學出來的這些兩個人交互的動作包括:坐、玩手機、握手、人拉人等等。我們把這些動作模型分別叫做4DHOI (4D Human-Object Interaction)、4Dhoi(4D hand-object interaction)、4DHHI (4DHuman-Human Interaction)。
我剛才說了名詞和動詞,還有很多其他的東西,我建議你們去研究一下,要建模型的話我們古代的甲骨文其實就是一個模型,他能夠把我們世界上所有需要表達的東西都給你表達了,是一個完備了的語言模型。
我再舉個複雜和抽象的例子,咱們古代人怎麼定義倫理道德,非常的漂亮!
引言中談到,大家擔心機器人進入社會以後,是不是會危害人類生存,所以引發了很多討論。有一次我參加一個DARPA內部會議,會議邀請了各界教授們討論這個問題,他們來自社會倫理學、認知科學、人工智慧等學科。大家莫衷一是。輪到我做報告,我就說,其實這個問題,中國古代人的智慧就已經想清楚了。
倫理道德的「德」字怎麼定義的?什麼叫道德?
道德規範是什麼,它是個相對的定義,隨著時間和人群而變化。我剛來美國的時候,美國社會不許墮胎、不許同性戀,現在都可以了。中國以前婦女都不許改嫁。甚至到幾十年前,我在家鄉都聽說這樣的規矩:如果一個婦女在路上,她的影子投到一個長老身上,那是大不敬,所以走路必須繞開,這就是一種社會規範。
中文這個「德」字你看左邊是雙人旁,雙人旁其實不是兩個人,雙人旁在甲骨文畫的是十字路口(見最右邊那個圖),十字路口就是說你是要做個選擇,是個決策。你怎麼選擇?比如說一個老人倒在地上,你是扶他還是不扶他?這就是一個選擇。貪不貪污、受不受賄這都是內心的一個選擇。這個選擇是你心裏面做出的,所以下面有個心字。
那怎麼判斷你內心的選擇符不符合道德呢?社會不可能把大量規則逐條列出來,一個漢字也沒法表達那麼多的內容吧。「德」字上面是一個十字,十字下面一個四,其實不是四,而是眼睛,十個眼睛看著你。就是由群眾來評判的。這就相當於西方的陪審團,陪審團都是普通民眾中挑選出來的(那是更進一層的法律規範了)。他們如果覺得你做的事情能夠接受就是道德,如果不接受那就是不道德。所以,你在做選擇的時候,必須考慮周圍人的看法,人家腦袋裡會怎麼想,才決定這個東西做不做。
所以,如果沒有上一節講的認知基礎,也就是你如果不能推斷別人的思想,那就無法知道道德倫理。研究機器人的一個很重要的一個問題是:機器要去做的事情它不知道該不該做。那麼它首先想一下(就相當於棋盤推演simulation):我如何做這個事情,人會有什麼反應,如果反應好就做,如果反應不好就不做,就這麼一個規則。以不變應萬變。
那它怎麼知道你怎麼想的呢?它必須先了解你,你喜歡什麼、厭惡什麼。每個人都不一樣,你在不同的群體裡面,哪些話該說,哪些話不該說,大家心裡都知道,這才是交互,你沒有這方面知識你怎麼交互呢?
所以我還是覺得我們古代的人很有智慧,比我們現在的人想的深刻的多,一個字就把一個問題說得很精闢。咱們現在大部分人不想問題,因為你不需要想問題了,大量媒體、廣告到處都是,時時刻刻吸引你的眼球,你光看都看不過來,還想個什麼呢!只要娛樂就好了。
現在,我們回到語言通訊、人與機器人對話的問題。下圖就是我提出的一個認知模型。
兩個人之間至少要表達五個腦袋minds:我知道的東西、你知道的東西、我知道你知道的東西、你知道我知道的東西、我們共同知道的東西。還有,對話的時候你的意圖是什麼等等諸多問題。具體我不講那麼多了。
最後,我想談一點,語言與視覺更深層的聯繫、與數學中代數拓撲的聯繫。拓撲學是什麼意思?就是說圖象空間,語言空間,就是一個大集合,全集。我們的每個概念往往是它的一個子集,比如說,所有的圖象是一個集合,一百萬個象素就是一百萬維空間,每張圖像就是這百萬維空間的一個點。人臉是個概念,所有的人臉就是在這一百萬維空間的一個子集,但是這個子集和其它個子集要發生關係,這個關係叫拓撲關係。計算機的人把它叫做語法,對應於代數拓撲。比如,頭和脖子在肩膀上是合規的,概率很高。這個圖像空間的結構其實就是語法,這個語法就是STC-AOG,時空因果的與或圖。語法可導出「語言」,語言就是一個符合語法的句子的總的集合。STC-AOG就是知識的總體表達,而我們看到的眼前每一個例子是由STC-AOG導出來的時空因果解譯圖STC-PG。計算機視覺用它,語言肯定用它,認知是它,機器人任務規劃也是它。這就是一個統一的表達。
第八節 博弈倫理:獲取、共享人類的價值觀
機器人要與人交流,它必須懂得人類價值觀。哲學和經濟學裡面有一個基本假設,認為一個理性的人(rational agent),他的行為和決策都由利益和價值驅動,總在追求自己的利益最大化。與此對應的是非理性的人。對於理性的人,你通過觀察他的行為和選擇,就可以反向推理、學習、估算他的價值觀。我們暫時排除他有可能故意假裝、迷惑我們的情況。
這個價值觀我們把它表達為一個利益函數Utility function,用一個符號U表示。它通常包含兩部分:(1)Loss損失函數,或者Reward獎勵函數;(2)Cost消費函數。就是說,你做一件事得到多少利益,花費多少成本。我們可以把這個利益函數定義在流態的(fluents)空間裡面。我們每次行動,改變某些流態,從而在U定義的空間中向上走,也就是「升值」。由函數U對流態向量F求微分的話,就得到一個「場」。
複習一下高等數學,我們假設一個人在某個時期,他的價值取向不是矛盾的。比如,如果他認為A比B好,B比C好,然後C比A好,那就循環了,價值觀就不自恰。這在場論中就是一個「漩渦」。一個處處「無旋」的場,就叫做一個保守場。其對於的價值觀U就是一個勢能函數。
所謂「人往高處走、水往低處流」說的是社會和物理的兩個不同現象,本質完全一致。就是人和水都在按照各自的勢能函數在運動!那麼驅動人的勢能函數是什麼呢?
人與人的價值不同,就算同一個人,價值觀也在改變。本文不討論這些社會層面的價值觀,我們指的是一些最基本的、常識性的、人類共同的價值觀。比如說把房間收拾乾淨了,這是我們的共識。
上圖是我做的一個簡單的實驗。我把幾種不同的椅子、凳子放在我辦公室(左圖)和實驗室(右圖)。然後,我統計一下學生進來以後,他喜歡坐哪個椅子,實在不行可以坐地上。這樣我就可以得到這些椅子的排序。A、B、C、D、E、F、G排個序,見上面的統計圖。我觀察了這些人的選擇,就問:為什麼這個椅子比那個椅子好?是什麼好?這其實就反映了人的腦袋裡面一個基本的價值函數。又說一遍:很普通的日常現象,蘊含深刻的道路。蘋果落地不是這樣嗎?大家司空見慣了,就不去問這個問題了。
為了解答問題,我的兩個博士生朱毅鑫和搞物理和圖形學的蔣凡夫(他剛剛去Upenn賓州大學當助理教授),用圖形學的物理人體模型模擬人的各種的姿勢,然後計算出這些坐姿在這些椅子上的時候,身體幾大部件的受力分布圖。見下圖,比如背部、臀部、頭部受多少力。
下圖中藍色的直方圖顯示了六個身體部位的受力分別圖。由此我們就可以推算出每個維度的價值函數。下面圖中六條紅色的曲線是負的價值函數,當人的坐姿使得各部位受力處於紅線較低的值,就有較高的「價值」,也就是坐得「舒服」。當然每個人可能不一樣,有的人腰疼必須坐硬板凳子有的人喜歡坐軟沙發。這也是為什麼,如果你觀察到有些異樣,可以推導這個人某地方可能受傷了。
讀到這裡,你不禁要問:這不是與物理的勢能函數,如重力場,一樣嗎?對,就是一個道理。這也是在最後一節我將要說的:達爾文與牛頓的理論體系要統一。
這對我們是常識,但是機器人必須計算出很多這樣的常識,TA需要設身處地為人著想,這個就不容易了。
疊衣服也是我們做的另外一個例子。如果我們把這個保守的勢能函數可視化為一個地形圖,那麼你疊一個衣服的過程,就像走一條登山的路徑。這個衣服我們原來搞亂了,它對應的狀態在谷底,最後疊好了就等於上到山頂了。每一步動作就有一個獎勵reward。我根據你疊衣服的過程,把這山形狀基本畫出來,機器就知道疊衣服這個任務的本質是什麼。你給它新的衣服,它也會疊了。機器人可以判斷你的價值觀。
最近大家談論較多的是機器人下棋,特別是下圍棋,的確刺激了國人的神經。下棋程序裡面一個關鍵就是學習價值函數,就是每一個可能的棋局,它要有一個正確的價值判斷。最近,各種遊戲、和增強學習也比較火熱。但這些研究都是在簡單的符號空間裡面玩。我實驗室做的這兩個例子是在真實世界,學習人的價值函數。
有了價值函數,在一個多人環境中,就有了競爭與合作,形成我們上一節談到的社會規範、倫理道德。這些倫理、社會規範就是人群在競爭合作之中,受到外部物理環境與因果限制下,達成的暫時的准平衡態。每種平衡態不見得是一個固定的規則,要求大家做同樣的規定動作,而是一種概率的「行為的語法」。規則其實就是語法。說到底,這還是一種概率的時空因果與或圖STC-AOG的表達。
在社會進化過程中,由於某些邊界條件的改變(如新的技術發明,像互聯網、人工智慧)或者是政策改變(如改革開放),打破了舊的平衡,社會急劇變化;然後,達成新的准平衡態。那麼社會規範對應的是另一個時空因果與或圖STC-AOG。你拿著一個準平衡態的STC-AOG模型去到另一個準平衡態生活,就出現所謂的「水土不服」現象。
談到這裡,我想順便對比兩大類學習方法。
一、歸納學習 Inductive learning。我們通過觀察大量數據樣本,這些樣本就是對某個時期、某個地域、某個人群達成的准平衡態的觀察。也是我前面談過的千年文化的形成與傳承。歸納學習的結果就是一個時空因果的概率模型,我把它表達為STC-AOG。每個時空的動作是一個STC-PG,解譯圖。
二、演繹學習 Deductive learning。這個東西文獻中很少,也就是從價值函數(還有物理因果)出發,直接推導出這些准平衡態,在我看來,這也是一個STC-AOG。這就要求對研究的對象有深刻的、生成式的模型和理解。比如,諸葛亮到了祁山,先查看地形,知道自己的隊伍、糧草情況,摸清楚對手司馬懿的情況(包括性格)。然後,他腦袋裡面推演,就知道怎麼布局了。
人的學習往往是兩者的結合。年輕的時候,歸納學慣用得多一些,演繹學習往往是一種不成熟衝動,交點學費,但也可能發現了新天地。到了「五十而不惑」的時候,價值觀成型了,價值觀覆蓋的空間也基本齊全了,那麼基本上就用演繹學習。
AlphaGo先是通過歸納學習,學習人類大量棋局;然後,最近它就完全是演繹學習了。AlphaGo的棋局空間與人類生存的空間複雜度還是沒法比的。而且,它不用考慮因果關係,一步棋下下去,那是確定的。人的每個動作的結果都有很多不確定因素,所以要困難得多。
第九節 機器人學:構建大任務平台
我在第四節談到人工智慧研究的認知構架,應該是小數據、大任務範式。機器人就是這麼一個大任務的科研平台。它不僅要調度視覺識別、語言交流、認知推理等任務,還要執行大量的行動去改變環境。我就不介紹機械控制這些問題了,就用市面上提供的通用機器人平台。
前面介紹過,人和機器人要執行任務,把任務分解成一連串的動作,而每個動作都是要改變環境中的流態。
我把流態分作兩大類:
(1)物理流態 (Physical Fluents):如下圖左邊,刷漆、燒開水、拖地板、切菜。
(2)社會流態 (Social Fluents): 如下圖右邊,吃、喝、 追逐、攙扶,是改變自己內部生物狀態、或者是與別人的關係。
當機器人重建了三維場景後(在談視覺的時候提到了,這其實是一個與任務、功能推理的迭代生成的過程),它就帶著功利和任務的眼光來看這個場景。如下圖所示,哪個地方可以站,哪個地方可以坐,哪個地方可以倒水等等。下面圖中亮的地方表示可以執行某個動作。這些圖在機器人規劃中又叫做Affordance Map。意思是:這個場景可以給你提供什麼?
有了這些單個基本任務的地圖,機器人就可以做任務的規劃。這個規劃本身就是一個層次化的表達。文獻中有多種方法,我還是把它統一稱作一種STC-PG。這個過程,其實相當複雜,因為它一邊做,一邊還要不斷看和更新場景的模型。因為我前面介紹過,對環境三維形狀的計算精度是根據任務需要來決定的,也就是Task-Centered視覺表達。
這個動作計劃的過程還要考慮因果、考慮到場景中別人的反應。考慮的東西越多,它就越成熟,做事就得體、不莽莽撞撞。
我一開始講到的那個機器人競賽,這些感知和規劃的任務其實都交給了一群在後台遙控的人。
下面,我就簡單介紹幾個我實驗室得到的初步演示結果,後台沒有遙控的人。我實驗室用的是一個通用的Baxter機器人,配上一個萬向移動的底座和兩個抓手(grippers),還有一些感測器、攝像頭等。兩個抓手是不同的,左手力道大,右手靈活。很有意思的是,如果你觀察過龍蝦等動物,它的兩個鉗子也是不同的,一個用來夾碎、一個是鋸齒狀的。
下圖是一個博士生舒天民教會了機器人幾種社交動作,比如握手。握手看似平常,其實非常微妙。但你走過去跟一個人握手的過程中,你其實需要多次判斷對方的意圖;否則,會出現尷尬局面。舒的論文在美國這邊媒體都報道過。
下面這個組圖是機器人完成一個綜合的任務。首先它聽到有人去敲門,推斷有人要進來,它就去開門。其次,它看到這個人手上拿個蛋糕盒子,雙手被佔了,所以需要幫助。通過對話,它知道對方要把蛋糕放到冰箱裡面,所以它就去幫人開冰箱的門(上右圖)。這個人坐下來後,他有一個動作是抓可樂罐,搖了搖,放下來。它必須推斷這個人要喝水,而可樂罐是空的(不可見的流態)。假設它知道有可樂在冰箱,它後面就開冰箱門拿可樂,然後遞給人。
當然,這個是受限環境,要能夠把樣的功能做成任意一個場景的話,那就基本能接近我們前面提到的可敬的烏鴉了。我們還在努力中!
(未完待續)
背景簡介:本文作者為加州大學洛杉磯分校UCLA統計學和計算機科學教授,視覺、認知、學習與自主機器人中心主任朱松純。本文2018年7月27日發表於微信公眾號視覺求索(https://mp.weixin.qq.com/s?__biz=MzI3MTM5ODA0Nw==&mid=100000408&idx=1&sn=7669f187676d900869c273b3e15fec37),風雲之聲獲授權轉載。
責任編輯:孫遠
歡迎關注風雲之聲
知乎專欄:
http://zhuanlan.zhihu.com/fengyun
一點資訊:
http://www.yidianzixun.com/home?page=channel&id=m107089
今日頭條:
http://toutiao.com/m6256575842
推薦閱讀:
※人工智慧的未來發展趨勢
※人工智慧軍備競賽:一文盡覽全球主要國家 AI 戰略
※伺服器端、移動端車牌識別
※解密|上帝公式拯救人類?末日來信背後多的是你不知道的事
※Ian Goodfellow等人提出對抗重編程,讓神經網路執行其他任務