多智能體間形成自己的語言系統

OpenAI 在今年上半年有個實驗,是關於多個智能體間的通信,就是說讓智能體通過自發形成的語言來溝通,提高合作效率,以達成設計的目標。

傳統的自然語言處理,是從預做好的大量語料中分離出語言要素,並建立語義網路,用模式識別來理解語言文本。但這種辦法,只要稍微了解一下,你就會發現有很多難以逾越的障礙,最關鍵的是這種系統難以理解新的語言材料,是「死」的。雖然依靠大量的數據,還有強大的計算,能夠構建出現實世界中大部分的語言場景,但是它並沒有從根本上」解決語言問題「。

OpenAI 的研究立足於語言的起源。我們觀察人類和動物,甚至是植物之間的通信,會發現各種形式的」語言「產生,有一個很明顯的目的,就是保證群體的存續。人類的語言很發達,產生了更多樣的用途,但從根本上說,語言是智能體之間為了達成一個目標進行協作的工具。所以要理解語言,就必須理解語言如何影響現實世界的行為和目標。比如一個字」丟「,單純去理解這個字,對於機器來說,最直接的辦法就是由人來告訴它這是什麼意思,然後它記住就好了,但更好的辦法,是讓機器去理解「丟」這個行為,會對它本身和周圍的環境造成什麼樣的影響,這才是真地理解了語言。

強化學習環境創造了這麼一個世界,智能體(Agent)可以在其中與其他的智能體通過語言溝通協作,進而逐漸發現和理解語言的真正意義。雖然它們所使用的語言,與我們所說的語言不太一樣,但本質上是沒有區別的,類似於漢語和希臘語的差別。

這是2017年3月的一篇論文,作者是 Igor Mordatch 和 Pieter Abbeel,目前都是機器學習與機器人相關方向的領銜人物。

arxiv.org/pdf/1703.0490

在這個實驗中,智能體自己的語言系統內可用的符號總數是20個,記為集合K,因為實驗者發現當符號過少時,容易產生混淆,而太多時,智能體往往使用一個符號來表示很複雜的意思。而實驗者希望的是,讓智能體之間形成一個複合型語言系統(compositional language),有動詞,有名詞,主語、謂語、賓語等等,所以最終選擇的是20個符號的語言系統,跟英語的26個字母比較相像。

在這個二維平面環境中,有N個智能體和M個地標,每個智能體和地標都有自己的位置和顏色,智能體可以乾的事情只有三種,看向一個地標,走向一個地標,或者什麼也不做。系統總體有一個目標,用於設計獎勵函數。而每個智能體又有自己的目標,並且相互之間無法知道各自的目標。智能體都有記憶,同樣也只有自己能知道。

在行動時,智能體可以選擇向某個其他智能體發出一個信號,包含它自己從符號集K中選擇的一個或多個符號,表達某種意義,比如獲取對方的位置和看向的目標。而且智能體發出語言信號,並不是毫無代價的,在計算機模擬環境中,它會消耗新陳代謝產生的能量,並且更長的符號序列會花費更多的時間來傳遞。另一方面,辭彙量大了之後,也要付出代價,因為它會消耗記憶能力。同義詞會產生歧義,是受到懲罰的。

在這個實驗中,兩個最主要的控制變數,是環境的配置和智能體的行為能力,不同的資源和賦能,將導致不同的語言辭彙和複雜度。

不論智能體數量多寡,GOTO(去)這個辭彙都是最早形成的,當然實際上它並不是「GOTO」這四個字母,只是對應於機器語言符號系統中的某個組合。最後形成的語言類似於這樣:

紅色智能體說:去,紅色地標,藍色智能體,。。。綠色智能體:。。。(沉默不語)藍色智能體:紅色智能體,綠色地標,看著,。。。

由於精細的設定,最終產生的辭彙都在合理的範圍內,比如三個智能體在二維環境中,大約會產生20個左右,帶有穩定意義的辭彙。

「人數」越多,行為能力越複雜,環境中的地標越多,最後產生的語言系統就越複雜。這非常符合我們對人類語言系統的認知。

在這篇論文里,有一個詞提到得很頻繁,就是「Reasonable」,即「理性的」。創造一個環境,給予智能體以行動能力,設計獎勵目標,最終智能體會很「理性地」利用語言這個溝通工具來協作,並完成目標。

這種實驗的思想,可以追溯到上世紀七八十年代的進化語言學。如果我們增加環境的複雜度,讓智能體的行為更多樣,無疑這些智能體間將會產生更富有表達能力的辭彙和語句。並且我們可以期待,機器智能體通過環境和行動習得語言能力之後,將可以很輕鬆將之遷移到我們的真實世界,進而理解人類的語言,比如英文、中文等等,這樣機器人跟人溝通將不是問題,並且機器可以更有「人情味」地翻譯所有語言。

更進一步

2017年6月份 OpenAI 發表了一個更複雜的實驗,在一個競爭-合作型環境中,有兩種不同的角色,行動者(actor)和評論者(critic)。評論者觀察行動者的行為,而通過語言溝通,行動者可以從評論者那裡獲得其他行動者的狀態和目標等信息,以此調整自己的行為。

這樣的實驗,其實就是在設計一個更複雜的社會分工系統,而語言則是這個分工系統中的溝通工具,可類比於某個人類圈子裡的黑話、Jargon。

對於這樣的實驗,你有什麼看法呢?你認為多久之後,機器人將替代我們的工作,直到替代——我們?

歡迎留言交流。

參考資料:

arxiv.org/pdf/1703.0490

Learning to Communicate

arxiv.org/pdf/1706.0227

Learning to Cooperate, Compete, and Communicate

Pieter Abbeel 在 UC Berkeley 的主頁:

Pieter Abbeel--UC Berkeley--OpenAI--Gradescope


推薦閱讀:

聊天機器人完全新手指南
一秒變身鋼鐵俠,外骨骼機器人還要走多遠?
機械臂能否進行精度較高的切削工作?
柔軟好擼還不用吃喝拉撒的貓兒,你要不要養一隻?

TAG:机器人 | openai | 人工智能 |