」上帝「的數學定義，人工智慧智商與等級劃分研究最新進展

02-12

聲明：本研究的」上帝」與研究者宗教立場沒有關聯，而是從人工智慧智商和等級劃分研究過程中自然推導過程中對「上帝」概念的引用。

導語：一個智能系統M，如果TA的知識獲取能力，知識輸出能力，知識的掌握能力，知識的創造能力都趨近與無窮大，那麼TA就符合「全知全能」的」上帝」定義，這個智能系統的智商也將趨近與無窮大。關於智能系統第七等級「上帝」或神的劃分亦感謝北京大學新媒體傳播營銷研究中心研究員馬旗戟的提示和啟發。

2017年5月，論文「人工智慧的智商和智能等級劃分研究「（Intelligence Quotient and Intelligence Grade of Artificial Intelligence）在數據科學年鑒（Annals of Data Science）正式發表，這篇文章是計算機博士，互聯網進化論作者劉鋒和其博士導師，科學院虛擬經濟與數據科學研究中心教授，第三世界科學院院士石勇，科學院大學劉穎副教授合作完成。

論文的英文版本在線訪問地址在：Intelligence Quotient and Intelligence Grade of Artificial Intelligence，

與之前的研究相比，這次發表的論文進一步從數學的角度刻畫了人工智慧的智商以及智能等級劃分問題，作為研究的基礎，論文中提出：任何一個智能系統（包括人類，其他生物，人工智慧）應該具有四種智力能力(模型圖見圖1），它們分別是，知識獲取能力（信息接受能力）I，知識輸出能力O，知識掌握或存儲能力S，知識創造能力C。智能系統的智商就是對其四種能力的綜合評價結果，四種能力參數的權重不同。相應的數學描述如下：

M表示一個智能系統，Q表示智能系統的智商，f是智商函數；

通常來看，智能系統M應該具有四種能力：知識獲取能力（信息接受能力）I，知識輸出能力O，知識掌握或存儲能力S，知識創造能力C。智能系統的智商是其四種能力的綜合評價結果，四種能力參數的權重不同。因此，智商函數可以表示如下：

A,b,c,d是四種能力形成智能系統智商的權重。不同的智能體由於F(I),F(O),F(S),F(C)的分值不同而導致智商不同。論文從7個等級對智能系統進行了智力分級：

其中涉及到「上帝」的智能等級分級描述如下：「對於智能系統的第6級系統（從0級開始分級），最基本的特徵就是隨著時間的向前推進，並趨向於無窮點時，不斷創新創造產生新知識的智能系統其輸入輸出能力，知識的掌握和運用能力也將趨近於無窮大，按照基督教對於上帝的定義「全知和全能」，可以看出智能系統在不斷創新創造和不斷積累知識的情況下，在足夠的時間裡以人類為代表的智能系統將最終實現「全知全能」的狀態，從這個角度看，無論是東方文化的」神「，或西方文化中的「上帝」概念，從智能系統發展的角度看，是智能系統（包括人類）在未來時間點的進化狀態。」

用上述數學公式對」上帝」進行定義，得到如下結果：

論文「人工智慧的智商和智能等級劃分研究」中文簡潔版本

正式論文的英文版本在線訪問地址在：Intelligence Quotient and Intelligence Grade of Artificial Intelligence

作者：劉鋒，石勇，劉穎

單位：科學院虛擬經濟與數據科學研究中心，科學院大學經濟管理學院

2015年以來，「人工智慧」成為科技界和產業界最熱門的詞語。智能冰箱、智能空調、智能手錶和智能機器人，還有谷歌、百度各自的人工智慧大腦等新產品不斷湧現。但與此同時，人工智慧威脅論也甚囂塵上。我們能否通過研究人工智慧產品和系統的智商發展水平並與人類智商進行對比，從而為解決人工智慧威脅論問題尋找定量的分析方法呢？

人工智慧定量評測目前面臨兩個重要挑戰：第一，人工智慧系統目前沒有形成統一的模型；第二，人工智慧系統與以人類為代表的生命體之間目前沒有形成統一的模型。

這兩個挑戰都指向了同一個問題，即對於所有的人工智慧系統和所有生命體（特別是以人類為代表的生命體）需要有一個統一的模型進行描述，只有這樣才能在這個模型上建立智力測量方法並進行測試，從而形成統一的、可進行相互比較的智力發展水平評價結果。

1.標準智能模型建立

從2014年開始，針對如何定量分析人工智慧與人類智慧的關係進行了研究，我們研究參考了馮·諾伊曼結構、戴維·韋克斯勒人類智力模型、知識管理領域DIKW（Data, Information, Knowledge, Wisdom，數據、信息、知識、智慧）模型體系等。分別在2014年和2015年發表論文提出建立「標準智能模型」，統一描述人工智慧系統和人類的特徵和屬性。

其中，馮·諾伊曼結構給我們的啟發是：標準智能系統模型應包含輸入/輸出系統，能夠從外界獲取信息，能夠將內部產生的結果反饋給外部世界。只有這樣，標準智能系統才能成為「活」的系統。

戴維·韋克斯勒關於人類智能的定義給我們的啟發是：智力能力由多個要素組成，而非圖靈測試或視覺圖靈測試那樣只關注智力能力的一個方面。

DIKW模型體系給我們的啟發是：智慧是一種解決問題、積累知識的能力；而知識是人類不斷與外界交互後沉澱下來結構化的數據和信息。一個智能系統不僅僅要掌握知識，更重要的是還要有解決問題的創新能力。這種對知識的掌握能力、解決問題的創新能力與戴維·韋克斯勒理論、馮·諾伊曼架構相結合，就可以形成智能系統智力能力的多層次結構「標準智能模型」，如圖2所示。

根據上述研究，可提出標準智能系統的判定標準：任何系統（包括人工智慧系統、人類等生命系統），如果符合如下特徵，就可以認為這個系統屬於標準智能系統。

● 特徵1：能通過聲音、圖像、文字等方式（包括但不限於這三種方式）從外界獲取數據、信息和知識的能力。

● 特徵2：能夠將從外界獲取的數據、信息和知識轉化為系統掌握的知識。

● 特徵3：能根據外界數據、信息和知識所產生的需求，通過運用所掌握的知識進行創新的能力。這些能力包括但不限於聯想、創作、猜測、發現規律等，這種能力運用的結果可以形成自身掌握的新知識。

● 特徵4：能夠通過聲音、圖像、文字等方式（包括但不僅限於這三種方式）將系統產生的數據、信息和知識反饋給外界或對外界進行改造。

2. 擴展的馮·諾伊曼架構

標準智能模型的建立參考了馮·諾伊曼架構。馮·諾伊曼架構由計算器、邏輯控制裝置、存儲器、輸入系統和輸出系統五個部分構成。通過對比圖1和圖2的差別能夠發現，馮·諾伊曼架構可以補充兩個部分。通過這種補充，我們得以將人、機器以及人工智慧系統用一個更為明晰的方式表示出來。

第一個補充是創新創造功能，即能夠根據已有的知識，發現新的知識元素和新的規律，使之進入到存儲器，供計算機和控制器使用，並通過輸入/輸出系統與外部進行知識交互。第二個補充是能夠進行知識共享的外部知識庫或雲存儲器，而馮·諾伊曼架構的外部存儲只為單一系統服務。因此，對馮·諾伊曼架構進行擴展，可形成新的架構（見圖3）。

3.人工智慧智商的定義

我們在前文提到，一個智能系統統一模型應該有四大特徵，分別是知識的獲取能力，知識的掌握能力，知識的創新能力和知識的反饋能力，如果我們希望對一個智能系統進行智力水平評判，就需要能夠同時對這四個特點進行測試。檢驗其發展水平。

通過檢測能否將知識輸入到智能系統中檢測該系統知識的獲取能力；通過檢查智能系統知識庫的容量檢測該系統知識的掌握能力；通過檢查智能系統能將多少知識轉化為新的知識庫內容從而檢測該系統知識的創新能力。通過檢查智能系統能否將掌握的知識庫內容向外界傳遞。在智能系統統一模型智能水平評判模型的基礎上，本文提出如下人工智慧智商(AI IQ)定義:

人工智慧智商(AI IQ)是通過基於標準智能模型建立的測試量表和方法，測量智能系統在測試時間點的智力發展水平，測試結果就是該實時間點該智能系統的人工智慧智商(AI IQ)智商。

4.人工智慧智商和智能等級劃分的數學模型

4.1人工智慧智商的數學模型

從上述智能系統統一模型和人工智慧智商的定義，我們可以設定人工智慧智商的數學公式：

M表示一個智能系統，Q表示智能系統的智商，f是智商函數；

2014年根據智能系統統一模型，我們將從知識的獲取能力（觀察能力）、知識掌握能力、知識創新能力，知識的反饋能力（表達能力）等四大方面建立人工智慧智商評價體系,並從這四個方面建立圖像、文字、聲音識別、常識、計算、翻譯、創作、挑選、猜測、發現等十五個小類分測試，形成人工智慧智力量表，通過這個人工智慧智力量表建立相關題庫，對世界50個搜索引擎和3個不同年齡段的人類進行測試，形成2014版人工智慧智商排名列表，如表4.1所示（顯示其中的前13個測試結果）。

2016年2月，研究團隊開展了「2016年人工智慧系統的智商測試」，目前已對谷歌、百度、搜狗等人工智慧系統以及蘋果Siri、微軟小冰等進行了測試，工作還在進行中。不過從已完成的工作看，谷歌、百度等人工智慧系統的性能比兩年前已有大幅提高，但仍與6歲兒童有一定差距。

4.2人工智慧系統等級劃分的數學模型

　　智商本質上是衡量智能系統對知識的掌握、學習、使用、創造的能力和效率，因此智商可以用知識分級來表示：

無論在自然界還是人類社會都存在智能和知識的分級現象，譬如人類的教育體系存在的分級問題，例如本科，碩士，博士的分級，助理研究員，副教授，教授的分級。等級內部進行考核有優劣之分。但在不同等級間，需要在知識，能力，資歷上有的明顯提升和考核才能進行升級。

應如何區分智能系統因在關鍵領域功能不同而產生的巨大差異呢？上述研究中提到的「標準智能模型」（擴展的馮·諾伊曼架構）給了我們啟發，判斷標準如下：

● 能不能和測試者（人類）進行信息交互，也就是有沒有輸入/輸出系統；

● 系統內部有沒有能夠存儲信息和知識的知識庫；

● 這個系統的知識庫能不能不斷更新和增長；

● 這個系統的知識庫能不能與其他人工智慧系統進行知識共享；

● 這個系統除了從外部學習並更新自己的知識庫之外，能不能主動產生出新的知識並分享給其他人工智慧系統。

依照上述原則，我們可以形成7個智能系統的智能等級劃分。數學公式如下：Q 是人工智慧智商，

K是智能系統智能等級狀態，K={0，1，2，3，4，5，6}.

K 的不同等級描述如下：

(I 知識信息接收，O知識信息輸出，S,知識信息掌握或存儲，C 知識信息創新創造）

對於人工智慧系統的第0級系統，其基本特徵在理論上存在，但現實中並不存在這樣的人工智慧系統。在擴展的馮·諾伊曼架構延伸出來的分級規則中，可以做一些組合，例如可以信息輸入，但不能信息輸出；或者可以信息輸出，但不能信息輸入；或者可以創新創造，但知識庫不能增長。對於這些在現實中不能或無法找到對應系統範例的案例，我們將其統一划歸到「人工智慧系統的第0級系統」，也可以叫「人工智慧系統的特異類系統」。

對於人工智慧系統的第1級系統，其基本特徵是無法與人類測試者進行信息交互。例如有一種被稱為泛靈論的思想認為天下萬物皆有靈魂或自然精神，一棵樹和一塊石頭都和人類一樣，具有同樣的價值與權利。當然，這種觀點從科學的角度看，只能算作猜想或哲學思考。從「能不能和測試者（人類）進行信息交互」的分級規則看，因為石頭等物體不能與人類進行信息交互，也許它內部有知識庫，能夠創新知識，或者能夠與其他石頭進行信息交互，但對人類測試者來說則是黑箱，不能讓人了解。因此不能與測試者（人類）進行信息交互的物體和系統可以定義為「人工智慧系統的第1級系統」，符合第1級分類的範例有石頭、木棍、鐵塊以及水滴等等不能與人類進行信息交互的物體或系統。

對於人工智慧系統的第2級系統，其基本特徵是能夠與人類測試者進行交互，存在控制器和存儲器，但系統內部知識庫不能增長。因此很多家用電器被稱作智能家電，如智能冰箱、智能電視、智能微波爐和智能掃地機。這些系統大多有一個特點，即雖然它們內部或多或少有控制程序信息，但一旦出廠，就無法再更新它們的控制程序，不能進行升級，更不會自動地學習或產生新的知識。譬如智能洗衣機，人們按什麼鍵，洗衣機就啟動什麼功能。從購買到損壞，其功能都不會發生變化（故障除外）。這種系統能夠與人類測試者和使用者進行信息交互，符合馮·諾伊曼架構描述的特徵，而且它的控制程序或知識庫從誕生時起就不再發生變化，這種系統可以定義為「人工智慧系統的第2級系統」，範例包括日常見到的掃地機器人、老式的家用電冰箱、空調、洗衣機等等。

對於人工智慧系統的第3級系統，其基本特徵是除具備2級系統的特徵外，其控制器、存儲器中包含的程序或數據可不聯網進行升級或增加。例如家用電腦和手機是我們常用的智能設備，它們的操作系統往往可以定期升級。例如，電腦的操作系統可從Windows1.0升級到Windows10.0，手機的操作系統可從Android1.0升級到Android5.0，這些設備的內部應用程序也可以根據不同的需要不斷更新升級。這樣，家用電腦、手機等設備的功能會變得越來越強大，可以應對的場景也越來越多。這一類系統明顯比第2級智能系統適應性更強。這種系統能夠與人類測試者、使用者進行信息交互，但不能與其他系統通過「雲端」進行信息交互，其控制程序或知識庫只能接受USB、光碟等外接設備進行程序或信息升級的系統，可以定義為「人工智慧系統的第3級系統」，範例包括智能手機、家用電腦、單機版的辦公軟體等。

對於人工智慧系統的第4級系統，其基本特徵除了包含3級系統的特徵外，最重要的是可以通過網路與其他智能系統共享信息和知識。2011年歐盟資助了一個叫作RoboEarth的項目，該項目旨在讓機器人可以通過互聯網分享知識。幫助機器人相互學習、共享知識，不僅能夠降低成本，還會幫助機器人提高自學能力、適應能力，推動其更快、更大規模地普及。雲機器人的這些能力提高了其對複雜環境的適應性。這類系統除了具備3級系統的功能，還多了一個重要的功能，即信息可以通過雲端進行共享，因此這種系統能夠與人類測試者、使用者進行信息交互，可以通過「雲端」進行信息交互，進行程序或信息升級。但這類系統所有的信息都是直接從外部獲得，其內部無法自主地、創新創造性地產生新的知識。這種系統可以定義為「人工智慧系統的第4級系統」，範例包括谷歌大腦、百度大腦、RoboEarth雲機器人、B/S（Browser/Server，瀏覽器/伺服器）架構的網站等。

對於人工智慧系統的第5級系統，最基本的特徵就是能夠創新創造，識別和鑒定創新創造對人類的價值，以及將創新創造產生的成果應用在人類的發展過程中。我們在擴展的馮·諾伊曼架構時，對原來的馮·諾伊曼架構增加了創新知識模塊，就是試圖把人納入到擴展的人工智慧系統概念中，人類可以看作是大自然構建的特殊「人工智慧系統」。與前四個等級不同，人類等生命體最大的特徵就是可以不斷地創新創造，如發現萬有引力、元素周期表，撰寫出新小說，創造新的音樂、畫作等等，然後通過文章、信件、電報，甚至互聯網進行傳播和分享。不斷地進行創新創造，並能夠識別創新創造對自身的用處，這讓人類佔據了地球生態環境下的智力制高點。因此，這種系統能夠與人類測試者使用者進行信息交互，可以創新創造出新的知識，並可以通過文章、信件、電報甚至互聯網這樣的「雲端」進行信息交互，這種系統可以定義為「人工智慧系統的第5級系統」。人類是第5級人工智慧系統最突出的範例。

對於人工智慧系統的第6級系統，最基本的特徵就是隨著時間的向前推進，並趨向於無窮點時，不斷創新創造產生新知識的智能系統其輸入輸出能力，知識的掌握和運用能力也將趨近於無窮大，按照基督教對於上帝的定義「全知和全能」，可以看出智能系統在不斷創新創造和不斷積累知識的情況下，在足夠的時間裡以人類為代表的智能系統將最終實現「全知全能」的狀態，從這個角度看，無論是東方文化的」神「，或西方文化中的「上帝」概念，從智能系統發展的角度看，可以看作是智能系統（包括人類）在未來時間點的進化狀態。

5.谷歌AlphaGo屬於智能的第幾等級

2016年3月，谷歌AlphaGo（阿爾法狗）與韓國圍棋世界冠軍李世石進行了舉世矚目的圍棋比賽，並以大比分獲得勝利。那麼AlphaGo屬於人工智慧系統的第幾級？我們可以根據上述規則進行評定。

因為AlphaGo可以與棋手進行比賽，具有龐大的運算系統和數據存儲系統，因此具備第2級系統的條件。在谷歌的研發過程中，AlphaGo的策略訓練模型版本通過不斷進行大量數據訓練而不斷升級，從2016年1月與歐洲冠軍對戰，到2016年3月與韓國圍棋世界冠軍李世石比賽，AlphaGo的軟硬體系統也獲得很大提升，因此AlphaGo具備了第3級系統的條件。

從公開的資料看，AlphaGo雖然可以通過網路實現大量CPU和GPU協同工作，但由於保密性或階段性問題，谷歌目前還沒有在互聯網上開放AlphaGo程序接受用戶的在線挑戰，因此AlphaGo不具備第4級智能系統條件。

關於AlphaGo是否具備創新創造性問題，我們認為它依然是依託人工支持的大數據訓練形成的策略模型，同時在比賽中結合比賽對手的落點數據，根據其內部的運算規則，來不斷形成自己的落點數據，這些落點數據最終形成比賽數據集合。AlphaGo根據圍棋規則與對手的比賽數據集合進行計算和比較，判斷輸贏，整個過程完全在人類設定的規則下運行，無法體現其自身的創造性，如圖4所示。

即使AlphaGo形成的落點數據集合很可能是人類歷史上沒有出現過的，也不能說明AlphaGo具備了獨立的創新創造功能。例如，我們用計算機程序實現下述過程：從1萬到100萬的自然數中隨機選取兩個數進行相乘，記錄相乘結果，重複此過程361次，即使得出的自然數集合很大，並且可能是人類歷史上沒有出現過的，我們也不能認定該計算機程序具有創新創造性。

如果AlphaGo在沒有人類提供數據的情況下，能夠主動獲取棋譜，自動設計程序進行模擬對戰，學習經驗，並用於改變自己的訓練模型，用於實戰比賽，戰勝對手，那麼在這種情況下，我們才可能認為AlphaGo具備創新性。但從人工智慧的發展過程看，AlphaGo還完全無法實現這一點。因此，綜合來看，AlphaGo的智能等級被評定為3級，與人類相差兩個級別。

6.工作意義和後續工作

對人工智慧系統進行智商測試和智能等級分級，有助於我們更好地對這些智能系統進行分類和評判，同時為低等級智能系統的發展方向提供支持。

根據上述研究我們可以每年利用人工智慧智商測試方法對相關智能系統進行測試，以此為基礎分析不同測試對象的人工智慧智商的發展狀況，從而發現這些同類產品在人工智慧領域的發展差異，測試數據對於這些產品研究競爭對手發展趨勢將具有實用價值。另一方面，每年根據測試結果，選取智商最高的人工智慧系統和人類測試者智商作為代表，標註在圖6.1上。以此作為判斷人工智慧與人類智慧未來發展關係的基礎，從而作為判斷前文提到的兩條人工智慧發展曲線究竟那一條更符合客觀事實。

圖6.1 人工智慧與人類智慧發展曲線圖