標籤:

進擊的谷歌 AI:一旦發現形勢不利, 就會變得更具攻擊性

我們都看過電影「終結者」,電影中描繪了有自我意識的AI系統天網是如何報復人類社會的。而在谷歌DeepMind的AI系統上進行的行為測試也確實向我們證實了,在建造機器人時要多加小心。

在2016年的測試中,DeepMind的AI系統展示出了強大的僅依賴於自身記憶的獨立自學習能力,並且在比賽中打敗了人類世界的圍棋冠軍。

在2017年,研究者們測試了AI系統在行為中的合作意願,並且發現當它發現自己快輸掉的時候,會傾向於選擇攻擊性策略來保證自己更易勝出。

最近,谷歌研究團隊讓兩個AI進行水果收集(收集更多水果者勝出)的電腦遊戲比賽,比賽進行了4千萬個回合。他們發現當水果很充足的時候,比賽形勢非常緩和。但當水果數量減少時,兩個AI會攻擊性會變強,開始用激光槍射擊對手將其踢出遊戲進而自己搶走所有的水果。

下面是這場水果收集遊戲比賽的視頻,其中兩個AI分別以藍色和紅色表示,綠色的是水果,黃色是激光。

可以看出來,它們十分「好戰」。

有意思的是,如果一方用激光槍擊中另一方,它並不能得到額外的獎勵。它只能將對手踢出比賽一段時間來保證自己這段時間多拿些水果。而如果兩個AI都不使用激光槍的話,理論上它們可以平分水果,這也正是訓練的還不太聰明的AI選擇的策略。事實上,隨著谷歌團隊訓練的AI形式越來越複雜,這樣的攻擊性破壞行為才會出現。

在2017年Rhett Jones的報告中,當研究者們使用較小規模的神經網路作為AI演算法時,它們在比賽中更傾向於和平共處。但當使用的網路越來越大越來越複雜,AI會大大提高它們攻擊對手的意願以獲得更多水果。

研究者們表示,AI越智能,就越容易從環境中學習,使得它學會使用高攻擊性策略以保證勝出。團隊成員之一的Joel Z Leibo說:「這個模型表示AI會表現出一些類似於人的行為,這是它們通過環境學習的產物。低攻擊性策略產生自較為富足的環境,所以就會減少採取消耗大的行為(使用激光槍);而更貪婪的動機則反映了打敗對手收集所有水果的誘惑」。

DeepMind之後又在另外一款遊戲 Wolfpack 上進行了測試。這次參與者有3個AI——其中兩個的角色是狼,另一個是獵物。不同於水果收集的遊戲,如果兩隻狼在獵物被捕時都距離獵物位置很近,不管到底是哪只狼拿下的獵物,兩隻狼都可以得到獎勵。

團隊在他們的論文里解釋道,「這個遊戲里,獵物是危險的——一匹狼就可以捕食它,但要冒著獵物屍體被拾荒者奪走的風險;然而,當兩匹狼一起捕獵時,它們可以更好的避免屍體被奪走,從而拿到更高的分數。」

所以,正如 AI 在水果收集遊戲里可以學到自私的攻擊性策略可以在這個特定環境里得到更優的比賽結果,它們也可以在 Wolfpack 遊戲里學到在這個環境中兩者合作才是個人取勝的關鍵。

儘管這些測試只是簡單的電腦遊戲,從測試中我們得到的信息是非常清晰的——如果把AI系統放在實際生活中來競爭奪取某些利益,那麼一旦它們的最終目標沒有考慮到要普惠人類的話,AI將僅為自己的利益而戰而發展成全面的競爭。

以自動駕駛車輛為例,在紅綠燈會阻礙行駛的情況下,自動駕駛車在規劃最快路線時也應該同時考慮其它車輛的目標,以實現對社會整體來說是最安全最有效的方案。

DeepMind 團隊、谷歌團隊仍在初期的研究階段,但目前的結果顯示,AI不會因為是由我們人類創造的就會自動考慮進我們的利益。相反的,我們人類需要把利他性本身植入到機器演算法中,並也要對他們可能會使用「激光槍」有所預期。

正如 OpenAI 的創立者埃隆·馬斯克在2015年發表的關於人工智慧研究出發點的觀點:「AI 在目前達到了可觀的但也很有局限的智能水平。可以預見到我們會繼續不斷嘗試擴展 AI 的能力,那麼最極端的話,AI 可以基本在每一項智能任務上達到人類的表現。我們很難預測人類水平的 AI 可以為社會帶來多少益處,同理,我們也很難想像,如果利用不合理,他們會怎樣地摧毀世界。」

人類啊,多加小心……

推薦閱讀:

前沿 | 人工智慧如何攻佔仲裁領域?
從智能到智慧,AI手機未來會怎樣?
人工智慧未來將擁有人類的感情?你能接受嗎?
人工智慧背後的數據科學

TAG:人工智慧 |