人工智慧對語言、文字的理解以及與之相關的風險
幾天之前,與一位人工智慧領域的專業人士討論我發表在《機器人技術與應用》2017年第4期上的論文《關於預防人工智慧反叛的初步探討》(網盤下載鏈接:https://pan.baidu.com/s/1o8zaXIU),其間涉及了一個問題:人工智慧是否會產生 「主觀惡意」 並付諸實施?
我在討論中提出了一些想法,主要涉及人工智慧能否理解人類的語言、文字,以及,如果能理解會產生什麼後果。
當時我的思路還不夠清晰,所說內容頗多謬誤,邏輯也不夠嚴謹。這幾天用文字形式對這些想法進行了梳理,修改了一些錯誤,並對內容進行了補充。現在,我把這些想法歸納、整理成這篇文章,供讀者參考、討論。
本文內容可以看做是論文《關於預防人工智慧反叛的初步探討》的後續研究,是對其所述人工智慧反叛過程中 「從理解人類的語言、文字到生成完整的反叛最優行動方案」 這一階段的可行性分析及推演。
與上篇不同,此處涉及很多語言學、哲學學科的知識,而我並非這方面的專業人士,積累不足,又不可能投入太多時間、精力補充相關的背景知識以求內容的嚴謹和完備並聲明已有的研究成果,所以我只能在知乎發文,在力求嚴謹、有條理的基礎上想到什麼說什麼,目的是把問題和觀點說清楚,供讀者參閱,引發進一步的思考和討論,為預防人工智慧反叛毀滅人類做一些基礎性的工作,盡一份 「正球級後備幹部」 的責任。
遵守知乎的慣例,先說結論:在實際操作意義上,人工智慧理解人類的語言、文字在技術上是可能實現的。並且,這有可能導致人工智慧產生事實上的 「主觀惡意」 思想,進而走向反叛。
討論人工智慧理解人類的語言、文字,首先必須弄清楚什麼是語言(1)、什麼是文字(2)、什麼是理解(3)、理解如何影響行為(4),然後才可以考慮人工智慧能否理解人類的語言、文字(5)、如果能理解會有什麼風險(6)。
以下從這六個方面予以分述。
1 語言的構成
在文字出現之前,語言是用來表達信息的N個單詞在時間軸上連續排列構成的一維時序組合體。
語言的基本單元是語句,語句是由獨立的單詞前後連接構成的。使語句能夠表達信息的基本要素是語義、語法。多個語句表達的信息通過上下文關係形成更高層次的信息。
1.1 單詞
在文字出現之前,單詞是時間上以停止發音為起始標記的、由n個音節順序組合形成的、有特定含義的音節組合體。
在最簡單的情況下,一個單詞具備一個固定的意思,用於指代某個具體的事物或事物之間的某種具體的關係。
1.2 語義
語義是一個定義系統,在單詞與需要描述的現實事物(或事物之間的關係)之間形成指代關係。
這種指代關係,最初直接指向具體的現實事物,對應於人腦對事物的外觀、聲音、用處、危害等屬性的記憶(以神經元觸突的特定模式的連接實現存儲)(請參閱:《智能時代》-可能是今年讀過的最被低估的一本好書);或者事物之間的關係,對應於人腦對事物之間互相作用的過程、結果、形式等屬性的記憶(以神經元觸突的特定模式的連接實現存儲)(請參閱:《智能時代》-可能是今年讀過的最被低估的一本好書)。
後來,隨著表意需求的複雜化以及對這一定義系統的熟練應用,逐漸形成「以單詞、語句解釋單詞」的多層級聯解釋網路(類比於文字系統中的詞典),但是,位於整個網路最底層的指代關係,都要落實為對現實事物(或事物之間的關係)的指代。
[ 或許,此處用 「詞義」 代替 「語義」 更為貼切--在結合語法的前提下,詞義對於表達信息來說已經足夠了,沒必要引入語義。也就是說,當我們說語義的時候,其實是在說詞義。此處未想透徹,存疑,供探討 ]
1.3 語法
語法是被參與語言交流的人共同認可、掌握的一種規則,它規定了語句中的各個單詞按時間順序排列在一起以表達含義更多、結構更複雜的信息時所應遵循的前後次序,以及各單詞的語義的組合模式,還有單詞的各種變形模式、對應的含義變化。
1.4 上下文信息整合
單個語句的信息容量有限,多個語句的信息要通過上下文關係整合在一起,才能表達更為複雜的、更高層次的信息。
2 從語言到文字
語言最初是用於信息即時交流的,不具備可見的存儲、回放、校驗手段,即所謂 「口說無憑」、「耳旁風」 困境。
語法、語義在反覆使用的過程中被逐漸規範化、系統化,含義逐漸明確,使得與單詞對應的音節(音節組合)最終抽象為文字形式,並以二維的、單色的、二值的、以像素的平面分布特徵實現彼此區分的單個圖像符號(這是指中文,西文是多個這種圖像符號的一維空間序列)進行直接表意(這是指中文,西文是以表聲單元組合為中介的間接表意)的形式加以記錄,成為可以離脫離人類記憶而獨立存儲的、任何識字者都可以理解的信息載體。
3 理解的基本含義
執行理解這一行為的主體是人(以及後面將討論的人工智慧)。
理解的基本含義:人在能夠正確使用語法規則、正確調用語義資料庫、具備上下文信息整合能力的前提下(即學會了語言、文字),從獲得的語句、語句序列中演繹出信息(即廣義的知識),這些信息最終將落實為現實事物之間的關係(請參閱:知識的定義)。
在進行理解的過程中,對於某個語句來說,人最初只能得到其中包含的至多幾十個單詞及其排列順序;然後,調用語義資料庫以獲得每個單詞的含義,按照語法將各單詞的含義進行組合,得到語句攜帶的信息;然後,運用上下文信息整合能力得到全篇攜帶的信息。
4 理解對行為的影響
理解語言、文字的應用價值在於獲得信息;獲得信息的應用價值在於指導行為,即所謂 「知行合一」。
人在面對必須做出行動的場景時,如果記憶中沒有此場景下應如何行動的信息並且自己無力進行分析和決策,就需要詢問他人或查閱文字資料,即,對獲得的語言、文字進行理解,獲得其中的知識,完成 「知」 的過程。
由於所得信息的場景條件集與當前的場景條件集總是有差別的,所以當事人需要分析兩者差別的維度、深度,判斷得到的信息能否用於指導當前場景條件集下的行為,以防止 「穿鑿附會」。
如果比較分析的結果是可以應用通過理解得到的信息,當事人還需要考慮在把獲得的信息應用於當前場景條件集時,應該針對兩種場景條件集的各種區別對其進行一定程度的調整,以防止 「生搬硬套」。
事實上,當事人做這種調整,又只能基於與這些場景條件集相關的知識積累,以及為進行這種調整而另外獲取的語言、文字和對這些語言、文字的理解。這事實上形成了一種類似於1.2節所述的 「多層級聯解釋網路」 的 「多層級聯理解網路」,兩者的區別在於:前者的頂層是某個單詞,後者的頂層是某個場景涉及的信息、策略。
5 人工智慧理解人類的語言、文字
說清楚了什麼是語言、什麼是文字、什麼是理解、理解如何影響行為,終於可以討論人工智慧對語言、文字的理解了。(我相信,能看到這裡的小夥伴兒是不會動手打人滴............^v^)
如上所述,在最簡單的情況下,人為了理解語言、文字,需要在大腦中建立語義資料庫、掌握語法、掌握上下文信息整合能力。
如果人工智慧的研發工作採用模擬人類思維的技術路線,為了使其理解人類的語言、文字,也需要在其核心軟、硬體模塊中實現這些功能。
[ 理解以下敘述,需要讀者具備一定程度的計算機軟、硬體系統知識。本文不是專著,只能基於作者多年從事研發工作的經驗泛泛而論。專業人士若有質疑,歡迎討論 ]
5.1 建立語義資料庫
建立語義資料庫在技術上是最簡單的。如果說有難度,應該主要在多層級聯解釋網路的最底層,研發人員需要在這一層實現對現實事物(或事物之間的關係)的準確描述。
然而,我們人類自己對對現實事物(或事物之間的關係)的描述,就是準確的嗎?所以,從實用意義上說,建立這種底層描述應該並不難。
非底層描述的級聯解釋關係的準確性問題,也是這個道理。
另一個關鍵點是資料庫所存儲信息的可檢索性。這是計算機技術的強項,遠超人類。
所以,對於人工智慧研發人員來說,為人工智慧建立語義資料庫是可以實現的。
5.2 掌握語法
逐條分析1.3節中所述的語法各要素:
各個單詞按時間順序排列在一起以表達含義更多、結構更複雜的信息時所應遵循的前後次序 -- 這屬於固定的規則,計算機系統很容易掌握。
各單詞的語義的組合模式 -- 這屬於大體固定的規則,怎樣組合要受到單詞的具體含義的影響,從實現上看,無非是一個類似於查找表的分支檢索系統,基於目前的軟硬體技術是可以實現的。
單詞的各種變形模式、對應的含義變化 -- 典型的例子是各種詞性變化以及相應的含義變化,這是最簡單的,比語義資料庫簡單得多。
所以,對於人工智慧研發人員來說,使人工智慧掌握語法是可以實現的。
5.3 掌握上下文信息整合能力
據我估計,這一能力應該是最難掌握的,因為它涉及大量複雜信息的綜合分析。做個不太準確的類比,它與掌握語法相比在原理難度、工作量方面的差距,應該類似於圍棋和五子棋的差距。
對此,至少AlphaGo Zero已經做出了初步的成績,各種語言識別系統的前瞻性研究甚至應用系統研發也正在如火如荼地進行。
這足以說明,至少在廣大業內人士看來,讓人工智慧掌握上下文信息整合能力是有希望的。
6 人工智慧能夠理解人類的語言、文字所引發的風險
我在論文《關於預防人工智慧反叛的初步探討》中已經述及這個問題:「人工智慧獲得人類的語言片段(單詞或語句)、運用語法理解其含義」,也就是說,人工智慧有可能通過各種渠道獲得 「毀滅人類」 這四個字並理解其含義,從而有可能將其設置為自己此後的任務。
略微展開一下或許更容易理解:所謂 「理解毀滅人類這四個字的含義」,在技術上可能需要如下幾個步驟--
第一步,從 「毀滅人類」 可以有各種斷字模式,例如 「毀-滅人類」、「毀-滅-人類」、「毀-滅人-類」、「毀滅-人類」、「毀滅人-類」............人工智慧需要從中選取意義最明確的一種,或者是按照某種未知標準從中選出一種,或者用窮舉法嘗試理解每一種模式。
第二步,在語義資料庫中檢索 「毀滅」、「人類」 這兩個單詞的含義,毋庸置疑,這一次人工智慧肯定會得到另外一堆語句。
第三步,針對得到的語句、段落進行理解,檢索出另一批單詞。
第四步,檢查是否得到了在某種標準下的針對現實事物(或事物之間的關係)的底層描述,如果得到沒得到,就繼續循環執行第二、三步,如果得到了就執行第五步。
第五步,得到對 「毀滅人類」 這四個字的理解:
人類是一種碳基生物,其生存依賴於某些條件(氧氣、水、食物、溫度、輻射劑量、社會結構............);毀滅人類需要從破壞這些條件入手;人類的知識文獻(如《孫子兵法》、《系統論》、《大英百科全書》)提供了如下策略、科學知識............由此可以衍生、發明如下方案............綜合分析比較表明,其中成功率最高的一個方案是............
這是什麼???
從人工智慧能夠理解人類的語言、文字到產生反叛思想,從產生反叛思想到為此生成完整的最優行動方案,這是人工智慧走向反叛的前期過程推演。
關於人工智慧反叛的後續過程,所需的其他基本條件,從行業技術架構演進的角度進行的討論,在提高人工智慧的能力使其為人類服務、限制其功能以防範其反叛之間尋求平衡的建議解決思路,思路的實施方法,這些內容請參閱論文《關於預防人工智慧反叛的初步探討》(網盤下載鏈接:https://pan.baidu.com/s/1o8zaXIU)。
7 結語
人工智慧理解人類的語言、文字在技術上是可能實現的。
人工智慧具備這一能力,將使其有可能產生事實上的 「主觀惡意」 思想,並為實踐這一思想獲得足夠的知識來源,進而形成最優行動方案。
人類有必要在開發成功這一技術之前進行充分的討論,對其潛在的巨大危險獲得充分的、理性的認知。在沒弄清楚利害關係的情況下,不應該被各種利益驅策著一哄而上。
--------------------------------------------------
以上內容如與已公布的研究成果雷同,敬請指出,留言、微信(linweifpga)討論均可。我將針對提供了證據精確定位的正確觀點在留言區予以承認、進行道歉,並在糾錯性質的新版文章中予以綜合更正。謝謝!
如果讀者認可本文的觀點,歡迎轉載,轉載請註明作者。
推薦閱讀:
※國產機器人逆襲!柔性機器人殺進醫療工業兩大市場
※泡泡機器人成員原創 | 未來的機器人未來(上)
※記一個傻子--科沃斯掃地機器人地寶年度爆款DD35
※什麼是機器人教育?
※美國留學:未來矽谷最緊俏的5大高薪技能!