我們什麼時候才會迎來個人智能機器人時代

10-09

我們什麼時候才會迎來個人智能機器人時代

來自專欄個人智能機器人26 人贊了文章

一、個人智能機器人存在的意義

隨著以智能手機為首的智能設備普及，以及人工智慧概念大潮席捲神州大地，人們開始思考一個問題，人形態的機器人是不是智能設備的發展方向？

不同的人對這個問題有著不同的看法，科學家與工程師們在這個領域進行了長期的研究。

從科學的角度來說，我們只有推翻所有可能性才能證明一件事情是不可能的，而證明一件事情成立卻只需要一個可重複的案例，這激勵著工程師們進行各種各樣的嘗試。

讓我們假定，如果人型機器人就是智能設備的發展方向，是什麼原因會導致對伴隨形態人形機器人的需求呢？

我的答案是：對環境交互的復用。

二、環境的交互

讓我們把環境分為三種：人類，人造物，大自然。

首先是人類，傳統來說，人類與人類之間的交流常常通過口頭語言與肢體語言，換句話說，聽覺與視覺是人類交互的輸入輸出主體。而人與機器交流則往往更多的使用觸摸，點選等等隸屬於觸覺的操作，這對於傳統人類來說是反直覺的。

如果機器人註定是要為人類服務，那麼讓機器人更多的接受聽覺與視覺輸入，能聽到人類的口頭語言並且看見人類的肢體語言，並且使用肢體動作以及語音向人類進行反饋，這可能會是一種有用的發展方向，因為機器人「復用」了人類與人類之間的交互界面，這對一部分人類來說會更具有親和力。

小插曲：在這個話題中，現實的「理工男」與「文青女」展開了激烈的爭論，理工男認為這些人性化輸入方式效率不高，精準度欠奉，實用價值不大，然而文青女卻認為這就是自己想要的，即便動動嘴比按一下遙控按鈕明顯耗費更長的時間，她也依然覺得這是更好的操控方式。

然後是人造物，人造物常常被設計為與人類交互。例如茶杯是為人類的手指量身定製，門把手適合人類手臂的高度並且適合手掌握持，樓梯被設計得適合人類步進的高度與腳掌長度。凡此種種，這個世界上已經存在的大量的人造物，都是被設計得最適合與人類交互。如果機器人被設計為人形態，則可以直接復用與這些人造物的交互介面。否則，這些人造物就需要專門的為機器人設計的交互介面。

一個反面的例子是機讀答題卡，為了能夠讓機器很好的識別它，我們對它的尺寸，黑標定位符，厚度與尺寸，格式，塗寫的深淺甚至使用鉛筆的標號都必須作出嚴格的要求，即便如此，參加過考試的大多數同學們，經歷過塗寫答題卡的膽顫心驚，依然會覺得塗寫答題卡是一件反人類的操作。如果一件人造物被設計得優先兼顧與機器交互的介面，那麼它的使用往往會讓人感覺非常不自在。

模仿人類的交互則必然需要機器人具有與人類相似的動作器官，最典型的是具有同樣的軀幹、四肢跟五官，它們的存在對更好的使用人造物非常重要。

人造物交互往往對機器人的材質以及動作能力提出更高要求。但在這個問題上，無論是科研工作者還是普通用戶，都奇蹟般的保持了一致觀點，那就是機器人使用人類的介面與人造物交互是一件很酷的事兒。而機器人使用專門為機器定製介面的交互相比之下並沒有那麼激動人心。

最後，是大自然，人類經過幾十萬年進化成現在這個樣子，最主要是適應大自然，因為天然造物本身無法改變其交互，無論人還是機器人，都只能主動去適應它。

面對大自然的交互，人形態當然不是唯一可用的設計，甚至不一定是最好的設計，但它卻是一種已經被實踐證實可用的設計。例如，有很多人質疑為什麼人類沒有進化出輪子，但輪子在大自然環境中的通過性其實很糟糕，越野坦克更需要動用履帶。

腿其實是另一種版本的輪子。如果我們仔細觀察一代摩拜單車的五個臂，會發現與地面接近的臂始終只有兩個，人類的雙腿在自動輪換之後，其原理也基本等效為一個輪子。

越野行走，攀爬，跳躍這些是與大自然交互可能出現的挑戰，在科研工作室中，目前的機器人已經有能力做到這些。

三、硬體的發展

智能手機的發展可能給人類一種感覺，目前我們已經可以在如此小型的設備中配置一台功能幾乎完整的電腦。這個觀點是否適用於機器人呢？

人類的輸入，大致有聽覺，視覺，觸覺，嗅覺，味覺，以及被稱為第六感的直覺。人類的輸出，則會是身體數百骨骼與肌肉運動的組合，它表現出的輸出主要有聲音和動作。

電腦在模擬人類視覺方面，採用了取巧的辦法：因為人類的眼睛只能分辨三種頻率的光，所以電腦也就只採集這三種頻率，常規電子設備的顯示器只顯示三種顏色，常規電子設備的攝像頭也只採集三種顏色，有三種顏色像素點的顯示器在人類看來顯示出了看起來與真實場景一樣的圖像。

人類識別出的所有顏色都只是基於三種頻率的顏色成分的不同加權組合，如果對每種頻率的光設定256個強度級別，那麼一共能組合出16777216種色彩，也就是一千多萬種。

如果對於一些特別的生物，可以識別四種顏色，那麼可以組合出的色彩將會增加到4294967296種，也就是四十多億種。他那麼他可能會發現，電腦顯示屏顯示的圖像，沒有一個是真實的。個別的人類因為基因變異等原因能識別四種顏色，他的人生是痛苦的，因為其他人對顏色的感覺都與他完全不同，他很難與人準確分享他的經歷。

僅僅只多一種頻率判定，能識別的顏色就多了許多倍。而對於嗅覺感測器來說，人類與其他生物差別更大。人類能識別的嗅覺種類是個位數，而犬類可以識別幾十種。按照強度組合，這就意味著，如果人類識別的氣味是億級，那麼犬類能識別的氣味種類是天文數字。

如果機器人能夠完整的檢測五感，則其信息收集將更完備，然而現狀離這一點還有一定差距。這是因為，雖然有更多的輸入源，但人類的輸出僅僅以聲音和行動為主，味覺與嗅覺只參與輸入，並不參與主要輸出，硬體方面的味覺和嗅覺的研發現狀落後於聲音跟行動。雖然在實驗室有一定的成果，但離普及的民用產品尚有距離。因而，目前可以民用的機器人，還是以對聲音以及運動的輸入輸出為主。

對機器人來說，聲音大致可以對應語音輸入和語音輸出，行動輸入可以對應攝像頭，行動輸出可以對應四肢。這是目前能達到的程度，不過對行動能力的取捨，我把設備分為三類：帶著動，自己動，兩者皆有。

一類設備是人類帶著動的設備。比如手機，一般放在手上或者包里或者桌子上，相對都是比較理想的環境，萬一掉地上或者水裡，立即會撿起來擦呀擦。又比如智能音箱，我們通常會把它放在室內的桌子上，如果需要移動，只能由人類把它移動到另外一張桌子上。

二類設備是自己運動的設備。比如掃地機，他們天生被設計為在相對複雜的惡劣工況下運行，我的掃地機可以勇敢的掃過風吹雨打的露台，然而這樣的設備雖然臟，我們也不會過於在意，因為你不會想把掃地機抱在身上，也不會過於在乎它可能不太體面的外觀。

第三類設備，則需要同時滿足以上兩種場景，它需要經常被人帶著移動，同時還需要自己能動。這類設備有體面的外觀，需要與人類親密接觸，同時還要在地上摸爬滾打，它的角色在不斷從二類到一類互相轉變。這類設備不算太常見，某種例子是機器寵物狗。如果它是一隻寵物，那麼就必然存在與人類親密接觸的需求，而同時，如果機器寵物狗的體型確實有真正的狗那麼大，它平時必然需要呆在地上自己跑。

智能設備的移動性越強，就越能滿足更多場景的應用。通常來說，移動性可以體現為便攜性與運動能力兩方面：其中，便攜性可以讓人類「帶著它走」的時候更為舒適；而運動能力則可以讓設備「自行移動」的範圍更廣泛。網上有動手能力較強的玩家把智能音箱接上電池供電然後固定在掃地機上，從而使得智能音箱可以在整個家裡不同房間自由行動，這就是便攜性與運動能力綜合起來的一種思路，它的問題在於掃地機的過坎能力並不理想，如果掃地機能適時的變形為人型進行障礙跨越，然後變形回輪形態移動，或許就更完美。

與生物一樣，電子設備的運動能力同樣收到尺寸的限制。這是因為設備的重量與尺寸的三次方成比例，而四肢運動的力矩僅僅與尺寸是線性關係，地面接觸面積則僅僅是尺寸的二次方比例。把一個小尺寸設備等比例放大之後，它的運動能力將大幅度下降。因而，限於現有條件，人類的智能機器人，很可能是會從小尺寸開始，逐漸發展到大尺寸。

四、人工智慧領域

普羅大眾對人工智慧的能力從懷疑到信任，可能是自阿法狗開始。不過說到人工智慧，總是離不開神經網路與深度學習。

在人工智慧之前的時代，程序們接受已知範圍內的輸入，按照已知的演算法，產生已知的輸出，大多數電子設備的實質表現就是一台有限狀態自動機。有限狀態自動機的優點就是給定了輸入輸出以及狀態，所有響應都可預期。

然而，人類卻似乎存在某種能力，對於從未發生過的未知狀態，也能緊急的作出合理的應對。人類對於未知事務的應對能力來自於過去的人生經驗，甚至可能會有一些失敗的，碰壁的經驗。它超出了有限狀態自動機模型的範疇。

對於圍棋來說，為什麼要動用人工智慧，主要原因在於以現有計算機的運算能力，無法窮舉所有的情況，也就無法把所有的棋局都變成已知，無法把整個棋局變成有限狀態自動機。那麼就必須通過之前的對局經驗，去應對未知的棋局。而阿法狗可以通過自我對弈的方式實現充分的大量的自我學習，獲得足夠多的失敗經驗。已經足夠刻苦的柯傑，迄今為止下過的棋局數量也僅僅是萬級或者數萬級。而阿法狗的訓練局數則是百萬級起步，在如此大的先驗學習樣本下拉開與人類的距離，戰勝人類並不算什麼奇蹟。

然而，對於除了圍棋以外的很多現實事物，並沒有那麼多的機會讓人工智慧進行學習，或者說，並沒有那麼多的機會讓人工智慧進行試錯。如果人工智慧無法預先獲取比人類多得多的學習樣本，那麼它即便增加了神經網路的深度學習，依然難以戰勝人類。一個典型的例子就是A股。首先，人類與人工智慧能獲得的數據都是一樣的，同樣都僅僅只是現有的公開的真實交易數據，其次，A股作為政策市，表現往往具有強烈的時效性，多年前的歷史未必具有非常強烈的可參考性。人工智慧的交易機會以及可獲得的數據量基本等同於人類，在輸入數據量相同的情況下，人工智慧的學習能力並不會大幅度超過人類，於是谷歌的團隊在研究A股人工智慧交易多年之後慘敗收場。

如果深度學習的數據如此重要，那麼一個最理想的成年情感交流機器人，需要是真實的經歷了幼兒園，九年義務教育，工作，甚至結婚生子的人，它有了足夠多的經歷，與足夠多的人交流，有了足夠多的學習與反饋，這樣的機器人才能更像一個人，更加人性化。

然而，機器人本身並沒有人權，因為它無法擔負任何責任。人類做了錯事，將可能犧牲自身的財富與健康作為代價，在這種責任擔當下人類被賦予進行一些決策的權利。讓機器人獲得成年人那樣的經歷，往往需要賦予它完整的人權，這在現有的社會框架下很難做到。目前機器人的數據來源只能是基於不完全行為能力人類。

因而，以現有可以模擬出來的，智能機器人的智能化程度大約會是個未成年人水平。

五、猜測與展望

如上所說，人形機器人一方面的側重點在於人性，它可以用於情感陪伴或者單身陪護，限於社會學而非科學技術上的原因，目前機器人只能表現出孩童級別的智慧。

人型機器人另外一方面的需求來自對環境交互方式的復用，它可以被設計來直接操作原本用人類操作的物件。對於一些本身製作耗費較高成本，不方便另行添加機器人專用介面的事物，人形機器人可以以無縫透明的方式實現機器自動化。這涉及到各種各樣的動作模擬，目前的機器人可以走路跑步甚至翻跟頭搬運貨物，雖然對一些非常精細的動作控制尚有不足，但在特定的細分領域已經可以很好的完成任務。

什麼時候才會迎來個人智能機器人時代？一方面，取決於用戶的需求，更多的需求就帶來更多的商機，促使了更多的資源被投入到相關研發。另一方面，人類近200年來的技術成就比幾萬年的成就還要大很多，未來技術發展的速度往往難以預測，如果產生技術爆炸，較大的技術鴻溝可能在短時間內獲得跨越。所以，迎來個人智能機器人時代的時間表，與技術爆炸的程度息息相關。

雖然目前，個人智能機器人的發展尚處於「起點」，但對機器人的研究其實已經進行了很多年，智能音箱的大賣說明了雛形狀態的個人機器人已然存在著巨大市場需求，掃地機搭載的智能音箱甚至被部分極客當作心目中智能設備的理想形態，因而個人機器人的未來趨勢是看好的，個人智能終端時代向個人智能機器人的轉變會是人類文明進程中的重要一環。