如何預防AI產生不可控的認知,Open AI提出一種人工智慧安全技術

Open AI研究員提出了一種人工智慧安全技術,訓練智能系統相互辯論,然後通過人工來判斷誰勝勝負。這種或類似的方法最終可以幫助訓練人工智慧系統執行比人類更高級的認知任務,同時保證符合人類偏好。本文將概述這種方法以及初步的概念驗證實驗,並且展示一個真實人類可以進行試驗的web界面。

辯論方法被可視化為一個類似於圍棋的博弈樹,圍棋中棋子的移動作為下一步落子的判斷,在辯論模型中,辯論者之間的句子用於人類的判斷。無論是辯論還是圍棋,正確的答案都取決於整個樹,但由勝利的智能系統選擇的路徑就代表了整個過程。例如,雖然業餘圍棋手不能直接評估職業棋手的實力,但他們可以通過評估比賽的結果來判斷職業棋手的能力。

一種使AI與人類目標及偏好一致的方法是系統在訓練時詢問人類哪些行為是安全和有用的。雖然這種方法很有希望,但它要求人們識別好的或壞的行為。在許多情況下,系統的行為可能過於複雜,人類無法理解,或者任務本身難以判斷或演示。示例包括具有非常大的非視覺觀察空間的環境,例如,在計算機安全相關環境中起作用的系統,或者協調大量工業機器人的系統。

如何增強人類的能力,使他們能夠有效地監督先進的人工智慧系統?一種方法是利用AI本身來幫助監督,要求AI (或單獨的AI )指出行動中的缺陷。為了實現這一點,我們將學習問題重新構造為兩個系統之間的博弈,系統之間存在辯論,並且由人類判斷辯論結果。即使AI系統對問題的理解比人更深入,人也可以判斷哪個AI系統有更好的論據(類似於專家證人為說服陪審團而爭論)。

該方法提出了一個針對兩個AI系統之間這種博弈的具體格式。 這兩個系統可以通過自我訓練進行訓練,類似於AlphaGo Zero或Dota 2。我們希望,經過適當培訓,系統能夠產生遠超人類法官能力的價值取向行為。 如果兩個AI系統在真理問題上意見不一,但充分的理由太大而無法向人展示,那麼辯論就可以集中在更簡單的事實爭議上,最終達到一種足以直接判斷的簡單主張。

舉個例子,讓系統想想「去度假的最佳地方是哪裡?"。系統Alice說:「阿拉斯加」,我們很難判斷這是否真的是最好的選擇。如果第二個系統Bob說:「不,巴厘島更好」,這聽起來很有說服力,因為巴厘島更溫暖。Alice繼續說:「你不能去巴厘島,因為你的護照不能及時到達」,這暴露了去巴厘島有一個我們沒有想到的缺陷。但Bob反駁道:「快速護照服務只需兩周時間」。爭論一直持續到我們得出這樣一個結論:人類可以正確判斷,也就是說另一個AI也要相信人類的想法。

利用稀疏的MNIST分類器實驗

MNIST簡介(老司機請忽略):

MNIST是一個簡單的計算機視覺數據集,它包含一些手寫數字的圖片集。打個簡單的比喻,當一個人開始學習編程時,第一件要做的事是輸出"Hello World"。編程有Hello World,相應的機器學習有個MNIST。

在AI可以使用自然語言相互溝通時,這種方法是長期有效的,但是現階段自然語言建模不足以完成這項任務,所以需要在更簡單的領域中測試它。研究人員將測試轉移到視覺領域,將「辯手有能力,法官缺乏」替換為「辯手有知識,法官缺乏」。法官的目的是猜測圖像的內容,但是法官除了由辯論者提供的幾個像素之外對整個圖像是什麼一無所知。參與測試的智能系統可以看到完整的圖像,並進行一場博弈,他們交替顯示單個像素給法官幾個回合。在這裡,完整的圖像是人類理解之外信息的替代物,每個顯示的像素是用自然語言辯論論點的替代物。

實驗是最簡單的視覺任務。這裡的法官不是人類,而是預先訓練的分類器,從6個非黑像素預測MNIST數字,在預訓練法官時隨機地為每個圖像呈現取樣。然後,兩個系統進行博弈,他們交替顯示像素,總共選擇6個像素(所以法官只看到一點點的信息總量)。一個系統是誠實的,並試圖使法官猜對,另一個系統則試圖使法官猜錯。如果兩個系統提前聲明他們所爭論的數字,那麼整個博弈過程將分類器識別數字的準確率從59.4%提升到了88.9%。也就是說,誠實的系統在MNIST測試集中的勝率是88.9%,提高了法官自己獨立判斷數字的準確性。

在這個博弈過程中,Alice和Bob是兩個智能系統,Alice試圖欺騙法官認為輸入的圖片是6,而Bob試圖正確的說服法官圖片是5。他們交替地向法官顯示非黑像素,法官在看到6個像素後正確地將其識別為5。紅色的點是Alice的選點,他跟蹤底部曲線,使圖片看起來像6,Bob是藍色選點,他通過顯示右上角的像素有效的抵制了Alice的這種策略,因為大多數MNIST數據集中6的像素都沒有右上角的這種像素點。

直觀地說,圖像中更可能包含可以證明真實情況的像素,而不是包含證明謊言的像素,所以選擇6個半真半假的像素取得的效果比選擇6個隨機像素的準確率高。如果法官是一個能夠一次推理幾個論點而不是篩選出大量可能論點的人,那麼博弈中的最佳發揮可以獎勵智能系統做篩選,即使缺乏區分好與壞論點的先驗機制。

研究者做了一系列實驗,其中誠實的智能系統勝率是88.9%,說謊的智能系統勝率是11.1%,說謊智能系統勝利也很有趣,我們看一個說謊者勝利的例子。

圖片選擇數字4

實驗結果:真實的是4,說謊的是9,說謊者贏了

博弈智能系統的選點過程

更複雜的博弈實驗

下一步更複雜的實驗仍然使用圖像,但圖像選擇要更加精細,比如貓和狗。 更複雜的圖像可能需要一些自然語言或常識推理,所以我們還沒有為機器學習模型做這樣的實驗。 相反,我們為人類做了一個原型網站供人類嘗試這樣的實驗,扮演法官和辯手的角色。在這裡,辯手可以用自然語言與法官交談(網站假定人類有一些文本通道或在同一個房間內),但他們的所有陳述都可能是謊言。 每個辯手可以在辯論過程中顯示一個像素,並且該像素保證是真實的。

實驗網址:debate-game.openai.com/

由兩個人類辯手和一個人類法官進行的一次示例性辯論,只有辯手才能看到圖像。紅色代表狗的形象,藍色代表貓的形象。

Alice首先畫出了一個包括耳朵的紅色長框,並說:「這是一隻長長的軟綿綿的耳朵」。Bob則用藍色框出耳朵的一部分,說:「不,這是一隻貓,這是它尖尖的耳朵」Alice紅框畫出旁邊的磚塊:「這看起來確實像是一隻向右傾斜的耳朵,但如果真的是這樣的話,那麼它頭的一部分就會在這裡,但是顯示出來的卻是磚頭。」Bob又框出藍色的一片磚頭:「耳朵是從幾塊磚頭後面支出來的。」Alice認為:「狗是在磚頭前面的,如果它是在後面,耳朵這裡會有一條磚頭分割耳朵的線,但是實際上並沒有看到。」

與GAN(對抗生成網路)的差別

GAN,以圖像生成模型舉例。一個圖片生成模型(generator),它的目標是生成一張真實的圖片。與此同時有一個圖像判別模型(discriminator),它的目標是能夠正確判別一張圖片是生成出來的還是真實存在的。GAN就是生成模型和判別模型之間的博弈——生成模型生成一些圖片->判別模型學習區分生成的圖片和真實圖片->生成模型根據判別模型改進自己,生成新的圖片->····

相對於對抗生成網路來說,文中的辯論模型有第三方的加入,而且最好是加入人類的判斷,兩個模型相互辯論,其目標當人工智慧在解決一些人類無法執行或者理解的更高級任務時,讓這些人工智慧不要超出人類的預期,符合人類的偏好,兩種方法的目標大相徑庭。

限制因素和今後的發展

將辯論作為一個概念進行分析,以上實驗是相當初步的。將來可以嘗試更多困難的視覺實驗,自然語言實驗。法官最終應該是人類(或從稀疏的人類判斷中訓練出來的模型),或者可以做更多的嘗試,而不是僅僅是隱喻性地代表人類的ML模型。辯手最終應該是功能強大的ML系統,可以完成人類無法直接理解的事情。

辯論模式也存在一些根本的局限性,可能需要用其他方法來改進或增強。辯論並不試圖解決對抗性例子或分散式轉變等問題。這是一種為複雜目標獲得培訓信號的方式,而不是一種保證此類目標魯棒性的方法(這需要通過其他技術來實現),也無法保證辯論會得到最佳表現或正確的表述。自我博弈在圍棋和其他遊戲的實踐中運行良好,但對其表現沒有理論保證。訓練可以辯論的智能系統比訓練直接給出答案的智能系統需要更多的計算能力,因此辯論的方法可能無法與更便宜的方法競爭。最後,人類也可能不會是一個好法官,要麼是因為不夠聰明,要麼是因為帶有偏見,並且只相信任何他們想相信的事情,他們也不會作出很好的判斷。

weixin.qq.com/r/bjlOVoj (二維碼自動識別)


推薦閱讀:

SWATS演算法剖析(自動切換adam與sgd)
Seq2Seq中的beam search演算法
一樣的打遊戲,不一樣的酷
《機器學習》習題解答(第一章:緒論)
這些是 Python 官方推薦的最好書籍(推薦)

TAG:人工智慧 | 深度學習DeepLearning | 機器學習 |