AI（人工智慧）真的智能嗎？

09-21

AI（人工智慧）真的智能嗎？

來自專欄 Business Code Design9 人贊了文章為什麼有很多名人讓人們警惕人工智慧？?

www.zhihu.com

原回答在這兒，沒啥人贊還是貼自己專欄吧...

同樣反對 @謝熊貓君的高票答案，比較認同第二高贊的匿名大神的回答，昨天跟 @王司圖 Kaiser 大佬一起吃飯也聊到了這個問題，強人工智慧是有可能實現，但是現在的技術離強人工智慧的距離確實還非常遠，人工智慧需要大數據來「喂」，然而即使是信息化程度最高的科技行業和金融行業，其中大多數企業的大數據準備都還做的一團糟呢，可以用以人工智慧研究和應用的「數據原料」還遠遠不夠，各大企業公關給人的那種欣欣向榮的錯覺和企業實際情況大相徑庭。

先不扯別的，大家覺得現有的人工智慧有多少「智能」的成分在裡面呢？我認為現在大部分的人工智慧大部分都是在圍繞「交互」和「效率」做文章，很少有真正在「智能」上做文章的，因為真要在「智能」上做文章的話門檻還是很高的，畢竟「智能」更需要的恐怕不是程序員，而是研究人腦的生物學家，研究自然語言的語言學家和研究情感的心理學家...... 我在下面也列出了「交互」「效率」「智能」三者不同的進化路徑，大家感受下是不是這樣......

交互進化路徑

工具（鍵鼠、遙控器等）—— 手指（物理接觸）—— 手勢語音眼球注視（非物理接觸）

效率進化路徑

單 —— 多（單窗口單任務單人工作 —— 多窗口多任務多人協作）

小 —— 大（小屏 ——大屏 —— VR AR 等360°沉浸式體驗）

本地 —— 雲

智能進化路徑

識別（圖文語音等）—— 理解（語法解析情景判斷）—— 經驗 ------ 情感？

接下來詳細說下我為什麼這麼理解，大家先來回憶下，上學的時候是不是所有老師都這麼說過：「別光記答案，要理解！」是啊，只記答案有什麼用呢，下次遇著這個問題還是不會的啊，所以，看見了不代表看懂了，聽見了也不代表聽懂了。用程序猿們的術語來說就是：識別 ≠ 理解

識別這個詞兒其實大家也很熟吧，文字識別（OCR)，語音識別（Siri 微軟小冰小愛同學...）圖像識別（人臉識別驗證碼識別條形碼識別發票識別），沒錯，現在的人工智慧所能幹的也就只有識別，這些識別做的是盡量先去看得懂聽得懂錯誤率低，至於理解，想想你調戲 Siri 為代表的各種語音助手表現出來的智障樣兒就知道它一定不理解。而真正的人類智慧是在於識別嘛？答案是毫無疑問的吧。

當然識別也是非常有價值的，能從一張圖片裡面識別出文字信息省了多少手敲的功夫，在不方便用手操作的時候（例如開車的時候）通過語音控制手機導航可以減少安全事故，公司門禁不用刷卡直接刷臉也很方便，超市裡買完東西到自助結賬的機器前面掃掃條形碼和微信支付寶付款碼就直接走人的感覺也很爽，藉助攝像頭識別當前路況前後車距環境變化從而實現無人駕駛也很酷，藉助圖像識別技術在農業領域自動除草除蟲也非常高效 ...... 還有很多很多工業級軍用級的應用都非常非常有價值，也極大的解放了勞動力，提高了效率。

但是！僅憑這樣就說我們可以用同樣的方法（機器學習深度學習），實現「人類級別的智能」，取代所有的人類工作，甚至支配統治人類，那就有點神化了，反正我覺得在我有生之年內（我 94 的）是沒啥希望的，為什麼呢？因為上面所說到的應用，只需要「識別」出圖像內容或語音內容，它不需要「理解」內容背後在表達什麼意思。有的童鞋可能就不服氣了，微軟小冰小愛同學還是很聰明的啊，好吧，給你潑盆涼水，把你語音說的內容放到百度里去搜索，多翻翻看有沒有類似的內容，相信你一定會回來點贊的。所以，這些所謂的智能語音助手其實本質上都是「語音版的搜索引擎」，它根本不懂你在說什麼，就把你說的內容的關鍵字提取出來去搜索，依據分析大量語料得到的擬合函數，隨機返回一些匹配程度比較高的詞句，各大廠商的宣傳視頻里看著的確都很聰明，其實更多不聰明的回答大家都心知肚明。至於一些個物聯網的智能家居也是同理，這些工具只是聽到了你要它幹什麼，不是聽懂了，這是兩個完全不同的概念，它只是聽到了語音然後轉化成一系列指令替你操作了而已，之前是你自己拿著遙控打開開關，調節空調溫度，控制電視音量，打開掃地機器人......現在是你喊了句話讓機器替你幹了這些事兒，所以這本質上其實是交互方式的轉變，不是非智能到智能的轉變。

那問題來了，怎麼讓機器不僅僅是「識別」，而是真正的「理解」呢？「識別」和「理解」的差別，就像程序語言裡面「語法」和「語義」的差別。程序語言跟人說的自然語言都類似：

首先得先認得單個漢字或者單詞是不是多音字有沒有多個含義（詞法），
然後再理解幾個詞連接起來表達的什麼意思連接起來有沒有歧義（句法語法），
然後再結合語境和前後文理解這句話到底要表達什麼意思（解釋語義）。

程序語言也同樣，需要前後經過 詞法分析器（lexer）語法分析器（parser）解釋器（interpreter）這三步，也只有第三步的解釋器才能實現程序的語義。

類比一下，自然語言的語音識別系統，其實只相當於程序語言的詞法分析器（lexer）。然而，詞法分析和語法分析，只不過是實現一個語言的萬里長征的「第0步」。大部分的 AI 系統裡面連語法分析器（parser）都沒有，所以主謂賓定狀補這些句子結構都分析不清楚，更不要說理解其中的含義了（interpreter），相信大多數人也都會像我這種普通人一樣，學了十幾年英文還是沒明白語法，因為特殊情況實在是太多了，人類自己都弄不明白的語言學，就妄圖教會機器？或者讓機器自己猜？然後變得像人一樣聰明？這分明就是要實現「讀心術」。不要忘了，機器學習是「舉三反一」，不是「舉一反三」。

再舉個例子，由於有了「個人語音助手」，有人就號稱類似的技術可以用來製造「機器客服」，使用機器代替人作為客服。他們沒有想清楚的是，客服看似「簡單工作」，跟這些語音控制的玩意比起來，難度卻是天壤之別。客服必須理解公司的業務，必須能夠精確地理解客戶在說什麼，必須形成真正的對話，要能夠為客戶解決真正的問題，而不能只抓住一些關鍵字進行隨機回復。另外，客服必須能夠從對話信息，引發現實世界的改變，比如呼叫配送中心停止發貨，向上級請求滿足客戶的特殊要求，拿出退貨政策跟客戶辯論，拒絕他們的退貨要求，抓住客戶心理，向他們推銷新服務等等，各種需要「人類經驗」才能處理的事情。所以機器不僅需要能夠形成真正的對話，理解客戶的話，它們還需要現實世界的大量經驗，需要改變現實世界的能力，才可能做客服的工作。所以任何試圖取代「需要思考需要複雜的經驗判斷工作」，節省勞動力開銷，剋扣員工待遇，試圖把他們變成「可替換原件」的做法，最終都會倒戈，使得企業收到適得其反的後果。

當然本文也不是弱化「交互」「效率」進步的歷史意義哈，這的確非常重大，不信去看老羅 515 剛發布的 TNT （乛?乛）但這些終究不是真正的「智能」，而真正的「智能」我們現在才剛剛走出去萬里長征第 0 步 —— 識別，僅僅這樣就已經可以實現人臉識別自助收銀無人駕駛等等等等很酷的東西，萬一有一天機器真的理解了我們這麼做背後的含義，也形成了自己的經驗，甚至情感，那個時候我們才會面臨真正的威脅吧，而那一天現在看起來的確還有點遠。

然後，現在市面上的大多數人工智慧的文章也好，教程也好，大多都是噱頭，的確誇大了其中的「智能」成分，閉口不提他們的局限性，讓外行們以為人工智慧就快實現了。還拿上面的例子來說，「語音助手」除了在開車或者雙手不方便的時候應用還可以，其他時候真的沒啥用，我不會在家裡公司或者公共場所使用它們，因為我懶得說話，或者不方便說話，點擊幾下屏幕，我就可以精確地做到我想要的事情，這比說話省力很多，也精確很多，這種局限性本來無可厚非，不同情況用不同的交互方式就行了，過分誇大語音的優勢就變成弄巧成拙了，這恐怕也正是老羅的 TNT 被黑那麼慘的原因。

並且，萬惡的資本家知道你在焦慮，在害怕被機器取代，然後就瞄準大家的焦慮點精準營銷，販賣焦慮，販賣人工智慧的相關產品相關內容，彷彿非得用了買了學了人工智慧才可以不被淘汰才能年薪百萬，也的確真的會有很多人花錢營造出一種「看似進步」的假象。畢竟我也思考過很多嘗試過很多才從焦慮變得從容，才明白作為人類的我應該對一切生物尤其是人類心存敬畏感。

說這麼多，也不是讓大家輕視人工智慧和科技發展的力量，只是為了從另一個方面辯證的看待問題，不希望有些人過分誇大「人類」的能力，拒絕前沿科技的應用，拒絕交互的優化，拒絕效率的提升，也不希望有些人過分誇大「人工智慧」的能力，以為有了它就可以隨意替代人類，畢竟連客服這麼按部就班的工作，機器都無法取代，就不用說更加複雜的工作了。所以，我們應該敬畏科技，更應該敬畏人類智慧，最好的辦法就是二者和諧共存，讓機器幫助人類匯總問題分析問題解決問題共同創造更輝煌的文明史（一下子就聖母起來了哈哈）......

最後聲明下，上文內容大量引用了垠神的文章，甚至有些都是直接複製粘貼過來的，至於為什麼不直接轉發，因為我也在垠神的文章基礎上也加了不少自己的想法，但這終究不是我所具備的思想高度，所以文末附上原文鏈接，以示尊重。

人工智慧的局限性