從機器人到谷歌大腦—人工智慧的6個智能等級

02-12

《中國計算機學會通訊》2016年第4期《專欄》

作者：劉　鋒

2015年以來，「人工智慧」成為科技界和產業界最熱門的詞語。智能冰箱、智能空調、智能手錶和智能機器人，還有谷歌、百度各自的人工智慧大腦等新產品不斷湧現。但與此同時，人工智慧威脅論也甚囂塵上。我們能否通過研究人工智慧產品和系統的智商發展水平並與人類智商進行對比，從而為解決人工智慧威脅論問題尋找定量的分析方法呢？

人工智慧定量評測目前面臨兩個重要挑戰：第一，人工智慧系統目前沒有形成統一的模型；第二，人工智慧系統與以人類為代表的生命體之間目前沒有形成統一的模型。

這兩個挑戰都指向了同一個問題，即對於所有的人工智慧系統和所有生命體（特別是以人類為代表的生命體）需要有一個統一的模型進行描述，只有這樣才能在這個模型上建立智力測量方法並進行測試，從而形成統一的、可進行相互比較的智力發展水平評價結果。

標準智能模型和人工智慧智商測試

從2014年開始，我和中國科學院虛擬經濟與數據科學研究中心教授石勇針對如何定量分析人工智慧與人類智慧的關係進行了研究，研究參考了馮·諾伊曼結構、戴維·韋克斯勒人類智力模型、知識管理領域DIKW（Data, Information, Knowledge, Wisdom，數據、信息、知識、智慧）模型體系等。我們分別在2014年和2015年發表論文提出建立「標準智能模型」，統一描述人工智慧系統和人類的特徵和屬性。

其中，馮·諾伊曼結構給我們的啟發是：標準智能系統模型應包含輸入/輸出系統，能夠從外界獲取信息，能夠將內部產生的結果反饋給外部世界。只有這樣，標準智能系統才能成為「活」的系統。

戴維·韋克斯勒關於人類智能的定義給我們的啟發是：智力能力由多個要素組成，而非圖靈測試或視覺圖靈測試那樣只關注智力能力的一個方面。

DIKW模型體系給我們的啟發是：智慧是一種解決問題、積累知識的能力；而知識是人類不斷與外界交互後沉澱下來結構化的數據和信息。一個智能系統不僅僅要掌握知識，更重要的是還要有解決問題的創新能力。這種對知識的掌握能力、解決問題的創新能力與戴維·韋克斯勒理論、馮·諾伊曼架構相結合，就可以形成智能系統智力能力的多層次結構「標準智能模型」，如圖1所示。

根據上述研究，可提出標準智能系統的判定標準：任何系統（包括人工智慧系統、人類等生命系統），如果符合如下特徵，就可以認為這個系統屬於標準智能系統。

● 特徵1：能通過聲音、圖像、文字等方式（包括但不限於這三種方式）從外界獲取數據、信息和知識的能力。

● 特徵2：能夠將從外界獲取的數據、信息和知識轉化為系統掌握的知識。

● 特徵3：能根據外界數據、信息和知識所產生的需求，通過運用所掌握的知識進行創新的能力。這些能力包括但不限於聯想、創作、猜測、發現規律等，這種能力運用的結果可以形成自身掌握的新知識。

● 特徵4：能夠通過聲音、圖像、文字等方式（包括但不僅限於這三種方式）將系統產生的數據、信息和知識反饋給外界或對外界進行改造。

2014年，我們在標準智能模型的基礎上構建了人工智慧智商評測量表。從信息或知識的輸入、輸出、掌握和創新等四大方面建立人工智慧智商評價體系，並在此基礎上建立圖像、文字、聲音識別、常識、計算、翻譯、創作、挑選、猜測、發現等十五個小類，形成人工智慧智商評測量表。我們對世界50個搜索引擎和3類不同年齡段人群進行了「人工智慧智商測試」，測試結果發現目前人工智慧系統的智商遠遠低於人類智商，評測最高的谷歌系統尚不及6歲兒童智商的一半，見表1。

2016年2月，我們和中國科學院大學劉穎團隊開展「2016年人工智慧智商測試」，目前已對谷歌、百度、搜狗等人工智慧系統以及蘋果Siri、微軟小冰等進行了測試，工作還在進行中。不過從已完成的工作看，谷歌、百度等人工智慧系統的性能比兩年前已有大幅提高，但仍與6歲兒童有較大差距。

擴展的馮·諾伊曼架構

標準智能模型的建立參考了馮·諾伊曼架構。馮·諾伊曼架構由計算器、邏輯控制裝置、存儲器、輸入系統和輸出系統五個部分構成。通過對比圖1和圖2的差別能夠發現，馮·諾伊曼架構可以補充兩個部分。通過這種補充，我們得以將人、機器以及人工智慧系統用一個更為明晰的方式表示出來。

第一個補充是創新創造功能，即能夠根據已有的知識，發現新的知識元素和新的規律，使之進入到存儲器，供計算機和控制器使用，並通過輸入/輸出系統與外部進行知識交互。第二個補充是能夠進行知識共享的外部知識庫或雲存儲器，而馮·諾伊曼架構的外部存儲只為單一系統服務。因此，對馮·諾伊曼架構進行擴展，可形成新的架構（見圖3）。

人工智慧系統智能等級分級標準

在研究的過程中還發現，無論在自然界還是人類社會，即使是智商相同的人工智慧系統，因其所在關鍵領域仍然存在巨大差異，也都存在智能和知識的分級現象。譬如，螞蟻、魚、猴子和人類，雖然都屬於生命系統，但其種群個體都存在智能的差異。人類的教育體系也存在分級，例如本科、碩士、博士的分級。等級內部進行考核區分優劣，但在不同等級間，需要在知識、能力、資歷上有明顯提升和考核才能升級。

回到人工智慧系統的智商測試上，應如何區分智能系統因在關鍵領域功能不同而產生的巨大差異呢？上述研究中提到的「標準智能模型」（擴展的馮·諾伊曼架構）給了我們啟發，判斷標準如下：

● 能不能和測試者（人類）進行信息交互，也就是有沒有輸入/輸出系統；

● 系統內部有沒有能夠存儲信息和知識的知識庫；

● 這個系統的知識庫能不能不斷更新和增長；

● 這個系統的知識庫能不能與其他人工智慧系統進行知識共享；

● 這個系統除了從外部學習並更新自己的知識庫之外，能不能主動產生出新的知識並分享給其他人工智慧系統。

人工智慧系統的6個智能等級分級

對於人工智慧系統的第0級系統，其基本特徵在理論上存在，但現實中並不存在這樣的人工智慧系統。在擴展的馮·諾伊曼架構延伸出來的分級規則中，可以做一些組合，例如可以信息輸入，但不能信息輸出；或者可以信息輸出，但不能信息輸入；或者可以創新創造，但知識庫不能增長。對於這些在現實中不能或無法找到對應系統範例的案例，我們將其統一划歸到「人工智慧系統的第0級系統」，也可以叫「人工智慧系統的特異類系統」。

對於人工智慧系統的第1級系統，其基本特徵是無法與人類測試者進行信息交互。例如有一種被稱為泛靈論的思想認為天下萬物皆有靈魂或自然精神，一棵樹和一塊石頭都和人類一樣，具有同樣的價值與權利。當然，這種觀點從科學的角度看，只能算作猜想或哲學思考。從「能不能和測試者（人類）進行信息交互」的分級規則看，因為石頭等物體不能與人類進行信息交互，也許它內部有知識庫，能夠創新知識，或者能夠與其他石頭進行信息交互，但對人類測試者來說則是黑箱，不能讓人了解。因此不能與測試者（人類）進行信息交互的物體和系統可以定義為「人工智慧系統的第1級系統」，符合第1級分類的範例有石頭、木棍、鐵塊以及水滴等等不能與人類進行信息交互的物體或系統。

對於人工智慧系統的第2級系統，其基本特徵是能夠與人類測試者進行交互，存在控制器和存儲器，即馮·諾伊曼架構描述的系統，因此很多家用電器被稱作智能家電，如智能冰箱、智能電視、智能微波爐和智能掃地機。這些系統大多有一個特點，即雖然它們內部或多或少有控制程序信息，但一旦出廠，就無法再更新它們的控制程序，不能進行升級，更不會自動地學習或產生新的知識。譬如智能洗衣機，人們按什麼鍵，洗衣機就啟動什麼功能。從購買到損壞，其功能都不會發生變化（故障除外）。這種系統能夠與人類測試者和使用者進行信息交互，符合馮·諾伊曼架構描述的特徵，而且它的控制程序或知識庫從誕生時起就不再發生變化，這種系統可以定義為「人工智慧系統的第2級系統」，範例包括日常見到的掃地機器人、老式的家用電冰箱、空調、洗衣機等等。

對於人工智慧系統的第3級系統，其基本特徵是除具備2級系統的特徵外，其控制器、存儲器中包含的程序或數據可不聯網進行升級或增加。例如家用電腦和手機是我們常用的智能設備，它們的操作系統往往可以定期升級。例如，電腦的操作系統可從Windows1.0升級到Windows10.0，手機的操作系統可從Android1.0升級到Android5.0，這些設備的內部應用程序也可以根據不同的需要不斷更新升級。這樣，家用電腦、手機等設備的功能會變得越來越強大，可以應對的場景也越來越多。除了家用電腦，很多家用電器、機器人也都開始留有介面，可以通過外接設備進行系統升級。這一類系統明顯比第2級智能系統適應性更強。這種系統能夠與人類測試者、使用者進行信息交互，但不能與其他系統通過「雲端」進行信息交互，其控制程序或知識庫只能接受USB、光碟等外接設備進行程序或信息升級的系統，可以定義為「人工智慧系統的第3級系統」，範例包括智能手機、家用電腦、單機版的辦公軟體等。

對於人工智慧系統的第4級系統，其基本特徵除了包含3級系統的特徵外，最重要的是可以通過網路與其他智能系統共享信息和知識。2011年歐盟資助了一個叫作RoboEarth的項目，該項目旨在讓機器人可以通過互聯網分享知識。幫助機器人相互學習、共享知識，不僅能夠降低成本，還會幫助機器人提高自學能力、適應能力，推動其更快、更大規模地普及。雲機器人的這些能力提高了其對複雜環境的適應性。這類系統除了具備3級系統的功能，還多了一個重要的功能，即信息可以通過雲端進行共享，因此這種系統能夠與人類測試者、使用者進行信息交互，可以通過「雲端」進行信息交互，進行程序或信息升級。但這類系統所有的信息都是直接從外部獲得，其內部無法自主地、創新創造性地產生新的知識。這種系統可以定義為「人工智慧系統的第4級系統」，範例包括谷歌大腦、百度大腦、RoboEarth雲機器人、B/S（Browser/Server，瀏覽器/伺服器）架構的網站等。

對於人工智慧系統的第5級系統，最基本的特徵就是能夠創新創造，識別和鑒定創新創造對人類的價值，以及將創新創造產生的成果應用在人類的發展過程中。我們在擴展的馮·諾伊曼架構時，對原來的馮·諾伊曼架構增加了創新知識模塊，就是試圖把人納入到擴展的人工智慧系統概念中，人類可以看作是大自然構建的特殊「人工智慧系統」。與前四個等級不同，人類等生命體最大的特徵就是可以不斷地創新創造，如發現萬有引力、元素周期表，撰寫出新小說，創造新的音樂、畫作等等，然後通過文章、信件、電報，甚至互聯網進行傳播和分享。不斷地進行創新創造，並能夠識別創新創造對自身的用處，這讓人類佔據了地球生態環境下的智力制高點。因此，這種系統能夠與人類測試者使用者進行信息交互，可以創新創造出新的知識，並可以通過文章、信件、電報甚至互聯網這樣的「雲端」進行信息交互，這種系統可以定義為「人工智慧系統的第5級系統」。人類是第5級人工智慧系統最突出的範例。

谷歌AlphaGo屬於智能的第幾等級

2016年3月，谷歌AlphaGo（阿爾法狗）與韓國圍棋世界冠軍李世石進行了舉世矚目的圍棋比賽，並以大比分獲得勝利。那麼AlphaGo屬於人工智慧系統的第幾級？我們可以根據上述規則進行評定。

因為AlphaGo可以與棋手進行比賽，具有龐大的運算系統和數據存儲系統，因此具備第2級系統的條件。在谷歌的研發過程中，AlphaGo的策略訓練模型版本通過不斷進行大量數據訓練而不斷升級，從2016年1月與歐洲冠軍對戰，到2016年3月與韓國圍棋世界冠軍李世石比賽，AlphaGo的軟硬體系統也獲得很大提升，因此AlphaGo具備了第3級系統的條件。

從公開的資料看，AlphaGo雖然可以通過網路實現大量CPU和GPU協同工作，但由於保密性或階段性問題，谷歌目前還沒有在互聯網上開放AlphaGo程序接受用戶的在線挑戰，因此AlphaGo不具備第4級智能系統條件。

關於AlphaGo是否具備創新創造性問題，我們認為它依然是依託人工支持的大數據訓練形成的策略模型，同時在比賽中結合比賽對手的落點數據，根據其內部的運算規則，來不斷形成自己的落點數據，這些落點數據最終形成比賽數據集合。AlphaGo根據圍棋規則與對手的比賽數據集合進行計算和比較，判斷輸贏，整個過程完全在人類設定的規則下運行，無法體現其自身的創造性，如圖4所示。

即使AlphaGo形成的落點數據集合很可能是人類歷史上沒有出現過的，也不能說明AlphaGo具備了獨立的創新創造功能。例如，我們用計算機程序實現下述過程：從1萬到100萬的自然數中隨機選取兩個數進行相乘，記錄相乘結果，重複此過程361次，即使得出的自然數集合很大，並且可能是人類歷史上沒有出現過的，我們也不能認定該計算機程序具有創新創造性。

如果AlphaGo在沒有人類提供數據的情況下，能夠主動獲取棋譜，自動設計程序進行模擬對戰，學習經驗，並用於改變自己的訓練模型，用於實戰比賽，戰勝對手，那麼在這種情況下，我們才可能認為AlphaGo具備創新性。但從人工智慧的發展過程看，AlphaGo還完全無法實現這一點。因此，綜合來看，AlphaGo的智能等級被評定為3級，與人類相差兩個級別。

工作意義和後續工作

對人工智慧系統進行智力分級，有助於我們更好地對這些智能系統進行分類和評判，同時為低等級智能系統的發展方向提供支持。對於人工智慧系統的分級問題，我們與石勇教授等人正在建立數學模型，希望用定量的方式判斷人工智慧系統所屬的分類等級。這項工作在公布之後，我們也將撰文向大家彙報。