為什麼 AI 發展到今天,圍棋能下過李世石、柯潔,仍不能完成幫人類洗衣物、做飯這種簡單的事?
並不是忽略洗衣機、電飯煲的存在,而是它們達不到自動駕駛那種自動程度。洗衣機、電飯煲和自動洗衣做飯相比,就像定速巡航和自動駕駛相比。
理想的自動做飯,比如我要做飯,我唯一要做的就是在沙發上動動手指,菜不用切、米不用淘,只等著吃就可以了。
正好在等外賣,所以答一下。
之所以有這個疑問,是因為我們人類和機器人對 「容易」 的定義有所不同。
五年前,深度學習還沒火起來的時候,經常可以看到大家用一個例子:計算機算精確定義的問題很快,如大數相乘、開根號等,但是對最簡單的物體識別則無能為力,如認出貓。人類則正好相反。
目前,雖然深度學習已經很好地解決了物體識別的問題,但並不是說它已經能夠在所有問題上超越人類了,依舊還有很多跟原來識別貓一樣看起來簡單的問題。
其中,機器人操作物體便是其中一個情況。
要操作一個物體,簡單地想一下,首先我們就要知道機械手的動作對物體施加了哪些作用力,然後才能判斷物體會怎麼動。
這中間存在一個很麻煩的東西,那就是摩擦力。摩擦力這個東西,說實話大家還不是非常了解它的形成機制,所以也不太可能知道它的精確模型。摩擦力估計不準,自然就沒法判斷機械人的動作會讓物體怎麼動了。
除了摩擦力以外,如果被操作的物體不是剛體,而是一個會變形的物體(如毛巾、衣服等),那就更不可能做了。
既然,傳統基於模型的方法似乎到了一定瓶頸,那麼,是否有可能用機器學習的方法來做呢? 這個就非常有趣了。已經有一些了,有沒有將深度學習融入機器人領域的嘗試?有哪些難點?,但是遠沒有到人類的水平。
外賣到了,我先吃。
吃完了,繼續。
我們要知道,機器學習只是在做一個高維曲面擬合,所以,至少需要考慮幾個點:
- 提供的數據是否包含足夠的信息?
- 機器學習是否能夠從提供的數據里提取到這些特徵?
- 機器學習演算法是否有足夠強大的擬合能力?
- 數據量是否夠?
對於第一個問題:提供的數據是否包含足夠的信息?如果我們提供的數據有信息丟失,那肯定是無法學習出來的。
例如,我們想做一個分類器判斷我買的外賣好不好吃,提供訓練數據的只是各種菜的圖片和相應的好吃等級。這樣,機器學習是無法學習出來的。因為只從圖片是無法得到食物好不好吃的所有信息。
對於機器人而言,也是一樣。我們有時候不知道該提供哪些數據給機器人作為訓練,就抓取而言,是否要提供物體的質量、形狀、彈性模量等?不清楚背後的原理就沒法做判斷。胡亂訓練就只會變成一場鬧劇:【偽科學爭議】谷歌研究員兩萬字批駁上交大用深度學習推斷犯罪分子
與之相對應的,物體識別、或者圍棋就不一樣了,只要提供了整幅圖片、整個棋盤,就包含了完成這個任務的所有信息。
對於第二個問題:機器學習是否能夠從提供的數據里提取到這些特徵?有時候,即使我們給了足夠的數據,但是機器學習也沒法從中抽取出需要的特徵。這樣,也自然無法做進行學習。
例如,都是做物體識別,都提供了完整的圖片。傳統的物體識別演算法(如 BoW 等),只是利用了人工設計的局部特徵點的信息,無法提取到一些更有用的特徵,因此識別能力遲遲無法提高。而隨著 GPU 的發展,卷積網路的能力被大幅挖掘出來,於是,在短短几年內,深度學習就把物體分類問題給基本解決了。
對於控制而言,很多問題都可以被抽象成一個馬爾科夫決策過程(MDP,Markov Decision Process)。從這個角度上看,就是說能不能從給的信息中獲取當前機器人所處的「狀態」。例如,做一個電機的角度控制,我們需要知道電機的當前狀態,然後用反饋控制。這個「狀態」可以通過編碼器直接測量,當然也可以通過一個高幀率攝像頭拍攝得到。(這個其實就是系統可觀性的概念了)
問題是,CNN 雖然能很好地提取圖像的特徵了,但是在機器人里,什麼網路才能提取到所需的特徵呢?直接給每個關節角度、力矩就行嗎?這方面還沒有一個比較好的嘗試。
對於第三個問題:機器學習演算法是否有足夠強大的擬合能力?現在數據都有了,問題就變成了機器學習是否能夠擬合出需要的高維曲面。
說實話,圍棋並不是一個很簡單的任務,它的狀態維度非常高,基本不可能遍歷,機器學習要做的是如何在極其有限的數據中擬合出合適的策略,這就使得很多「顯然」的方法變得不可用(量變導致質變),AlphaGo 絕不只是計算效率高的結果。
在強化學習(RL,Reinforcement Learning)中,就是通過迭代的方法獲得一個高維的表格,這個表格對應著所有的狀態 s,每個狀態對應著相應的動作 a。然後,深度網路就是用一個高維曲面來擬合這個表格。
至少從目前的一些應用(物體識別、AlphaGo等)上看,深度學習的擬合能力已經足夠強了。而且,目前也有很多方法來防止過擬合 fly qq:機器學習中用來防止過擬合的方法有哪些?
對於第四個問題:數據量是否夠?這個肯定是個問題。
對於圖像而言,可以有 ImageNet 等。但是對於機器人,就不太好採集數據了,如果讓機器人在現實生活中採集數據,那麼一方面時間太長,另一方面可能損壞機器人。如果讓機器人在模擬環境中採集數據,如何彌補模擬與實際之間的差距,又是另一個大問題了。
當然,或許有人會提 AlphaGo Zero 這次沒有用人類數據。但是,這並不是說它不用大量數據。只是因為圍棋這個規則比較確定,輸贏也是明確定義的,我們就能通過給定一定規則,模擬出這些數據。
機器人這塊確實還是任重道遠,當然也不排除有從機器學習的角度彎道超車可能性。但要記清,機器學習也要遵守基本法,控制理論里的可觀性、可控性還是有必要分析的。
看了 @邵天蘭 的回答,同是身為機器人行業的從業者,深感無力,我們能做出來的機器人和大家所期待的機器人差太多了。曾經談過家用機器人發展遠落後無人駕駛車的問題,可以看看我寫的一個老答案
賈子楓:Google 無人駕駛汽車的發布意味著什麼?
無人車的研發風生水起,成果不斷。做家務的機器人有哪些進展呢?
(阿爾法狗蛋最近知乎上的回答太多啦,就不多說了。)我們先來看看人工智慧和機器人的科學家工程師們為了洗襪子洗內褲之類的家務事都做了些什麼。
會自動疊毛巾的機器人youku.com視頻
這可是當年震驚了機器人學界的PR2疊毛巾。隨意擺放的機器人從未見過的毛巾,柔軟會形變,利用視覺找到邊角,再用夾爪拉扯搞定。在幾乎都處理剛體和已知物體的機器人界還能有這種操作?可是與Boston Dynamics內行外行一邊倒的喝彩不同的是,大眾對這個疊毛巾的東西嗤之以鼻。2分鐘視頻內疊了五個毛巾看起來不錯啊~ 我擦角落裡有個x50, 原來是50倍速快進,完全看不出是50。算算100分鐘疊五個,20分鐘疊一個???不過機器人可以24小時不斷的工作,將來興許能減少酒店布草的工作。那這機器人要多少錢呢?大概30萬美刀。
記得之後就有議員提出議案不能把納稅人的錢花在這些弱智身上。直接導致Boston Dynamics從Darpa拿到的項目銳減從而加入Google...
以下鏈接是油管原版。
原視頻熱度最高的兩個評論。「他要把毛巾盯出花的樣子閃瞎我的氪金狗眼。」 「我要是花二十分鐘才疊一條毛巾肯定要被老婆干扁。」
Cloth Grasp Point Detection based on Multiple-View Geometric Cues with Application to Robotic Towel Folding,視頻就是附屬於這篇2010年的ICRA文章。截止現在2017年10月,被引用了200多次。在機器人領域算是一個非常高的引用率了。通訊作者是Peter Abbeel,是Andrew Ng的學生,榮耀王者。然而我們仰望的神被大眾嘲笑了。。。
還有很多實驗室在這前前後後有很多用PR2做家務的研究工作。內容包括場景理解,物體識別,移動操作,任務規劃,人機交互多個方面。比如Cornell的機器人學習實驗室。有很多視頻。視頻都需要油管上看。
Cornell Personals Robotics: Videos
還有原來CMU的大神Siddhartha Srinivasa,在新加坡的時候我聽過一次Seminar,可以看看他今年在RI的Seminar。這個系列我會時不時瞅一瞅。。昨天和幾個研究生聊天,問我youtube上有什麼好看的,RI seminar就可以推薦給大家
Sidd的學生Dmitry Berenson也已經成為大牛了。他也做了很多工作。Autonomous Robotic Manipulation Lab。看起來可能和 @fly qq 做的方向比較相近呢。
----------
都看到這裡了,就多說兩句。
在科技發展的過程中,方法論是很重要的。就是在某一階段,利用某種方法,或者說沿著某個研究方向,能否解決一個問題?圍棋這個問題,如果用當年深藍大戰卡斯帕羅夫的方式,肯定是做不出來的。有了深度學習,有了不斷改進的網路,阿爾法狗蛋終於非常好的解決了圍棋的問題。但是不能沿著這個方向解決實際物理世界中的問題。在通用的AI出現之前,我們解決現實問題的難度就如 @邵天蘭 所說,是非常困難的。
圍棋可以突破,畢竟這更像解一個偉大的數學猜想,需要 @田淵棟 這樣的頂級人才,小團隊來做。機器人更像是要造火箭,需要大量工程實踐。但是當要應對千千萬萬家中的千千萬萬事物,現在的理論方法抑或硬體也還不夠用。一個機器人可以疊好毛巾,和機器人能夠煎好雞蛋,這對現階段來說,基本就是兩個研究問題。那就不可能靠堆砌工程師窮盡搜索空間。我們大概需要等到機器人領域的一些基礎演算法革新。
人工智慧和機器人的話題總也說不完。還有點想聊人工智慧和機器人的聯繫與區別,下次有機會吧。給大家推薦一本書,《劍橋五重奏: 機器能思考嗎》,是我2001年高一時去北京進行物理培訓的時候買的。還記得當時培訓課上的老教授給我們講瞬間轉移的靈與肉的問題,也是和 @謝熊貓君 的一篇高贊翻譯類似的問題https://www.zhihu.com/question/26630283/answer/38171813。正好在逛西單圖書城時看到這本書,看了看目錄就覺得超愛了。想想我現在的很多觀點可能都受其影響。比如靈不能脫離肉體存在,要產生智能必須能感知能作用於外部環境。也即覺得智能的機器(強AI)大概不能只是一台電腦,應該是一個機器人。也有些問題現在也還比較迷,比如智能可不可以脫離社會存在?這種問題是我在讀這本書之前從來沒想過的呢。
常以為自己從技術到原理思考過很多問題,後來才發現無論是科學上還是哲學上,大都有前人,比我們深入得多。
題主提到的任務對機器來說有多難,很多回答都提到了,這裡不再複述。
我想之所以很多人都會問這個問題,另一個錯誤假設是值得一提的:
智能是一個標量,可以把各種智能體根據其所能處理的任務難度從低到高排成一排。
實際上無法做這樣的比較。生活中我們都很熟悉,體操王子未必也是圍棋冠軍,就是類似的道理。
這個錯誤假設還令很多人以為靈長類一定是除人外最聰明的,之前提到過。
Mon1st:除了靈長類以外,還有哪些高智商動物?
因為你需要的是不是洗內褲,而是在任何情況下都有人取走你的內褲,洗好消毒烘乾疊好,送到伸手就能取到的地方。
你需要的也不是做飯,而是只要你餓了,不分時間地點,都有人按你的口味做好飯菜,配上餐具趁熱送來,要是連點菜都能省掉,直接讀心就更好了。
你甚至需要的也不是這兩種服務,而是以工薪階層的收入也能應付這兩種服務。
至於阿發狗么,與之對應的服務是你站在路邊等公交,心裡想到圍棋,眼前立刻浮現一個虛擬棋盤,把你上次沒下完的棋展現出來,還告訴你上次最後幾步的心理狀態,然後根據你的心情,選擇是用比你高一點點的棋力激勵你,還是比你低一點的棋力哄哄你。每當你做出精彩或失敗的關鍵落子棋,機器會給你打分,會尋找全球類似對局中其他人的選擇,告訴你的勝率因此有什麼波動。此時公交車進站,棋盤自動收起來,上車後視你的心情再決定是否展開,如果你的目光在某個美女身上停留了2秒以上,它絕不會跳出來遮擋你的視線……而這只是服務的一小部分而已。
你現在應該意識到了,這個圍棋軟體要想隨時隨地達到上面描述的服務水平,「下棋好」只是最基本的要求。在整個軟硬體體系中,下棋佔用的成本可能1%都不到。而系統的技術難點也不是下棋,而是探測你的心情,研究你的習慣,確定你任何時候的物理和生理狀態,再用最可靠、絕不會引發其他系統bug的設備提供服務——最後再把這些服務所需的設備變成白菜價格。這當然很不容易,但如果你有錢僱傭專車和一個24小時待命的圍棋職業選手,前面說的所有圍棋服務都可以在50年前實現,反正你也分辨不出九段和阿發狗哪個更高明。
再打個比方,一瓶水要你兩塊錢,其中造水的成本2分錢都沒有,但造瓶子,研究消費者需求,通過物流體系把水送到合適的地方,在你最可能渴的地方僱傭人員,以合適的溫度把水送到你手裡,還要承受一大批水賣不掉,佔用人力物力存儲的代價,這其中的成本就不止一塊錢了,所以賣水的利潤率不是99%,而是20%-30%。
現在你質疑計算機為什麼還不能像貼身保姆那樣洗衣服,不能像隨時廚師和管家那樣提供精美食物,就好比質疑為什麼店家不能2分錢賣你一瓶冰水。人家肯定告訴你——自己從家裡帶白開水,還用不了兩分錢呢。
實際上,如果你願意站到投幣洗衣機之前等待,自己疊衣服放到衣櫃;如果你願意到食堂排隊打飯,飯後自己送餐盤到回收點,問題在幾十年前就已經解決了——把個性化服務變成流水線工業品,幾十年時間絕對不慢。從富貴人家叫戲班子上門排演堂會,到工薪階層坐在家裡看連續劇,人類可是花了幾千年。
相關回答:
馬前卒:機器人能夠干98% 的非機械性工作的時代,社會會怎麼樣?
馬前卒:如何看待有些人認為計算機專業是「拿命換錢」?
馬前卒:什麼是「極簡主義」的生活方式?
人類的大腦最不可思議的一個地方就在於,就算它掌握了再多的知識,也還是要不可避免地用「人類」的方式去解決問題…
題主腦補的是不是下圖這樣的畫面:
可事實上你說的這兩件事,實現起來壓根就用不上人工智慧。
比如你說的自動做菜。聽說過炒菜機么?啥?那玩意太低端看不上眼?
我可以把煎炸煮燉蒸全整在一台機器上,再加上自動投入原材料的功能,弄成一台這樣的機器:
這台機器怎麼工作?舉個例子,你想吃小雞燉蘑菇,就在手機上點小雞燉蘑菇,然後機器就自動從料倉1號取出雞肉,3號取出蘑菇,789號取出蔥姜蒜.,按照一定順序投入鍋里,等上一會兒,小雞燉蘑菇就會從出口處送到你的桌上。
是不是想起了某個城鄉結合部的化工廠?
這個形態才是機器解決問題的最高效方式。只要有個正經公司想把這玩意弄成正經產品,拉個團隊,上面這台機器理論上整個一年半載就可以搞出來了。
你是不是想說,原材料的處理還不是得自己做?這樣一點也不酷。
我司既然做了這台機器,這點用(ba)戶(ni)體(zha)驗(gan)當然已經考慮在內了。
我們的工程師改進了方案:
你只需要購買我司生產好的真空食材包,多屯一些隨意扔進在檯子上,取料機會自動根據真空包上的二維碼識別材料進行分揀,按順序放到料倉里。
更過分一點,我司還提供直送服務,只要安裝一條真空管道,我司會自動把剛出廠的原料直接輸送到你的家裡,你要做的只是在app上點一下你想吃的東西,以及轉賬付費:)
我司給這台機器整了個高大上性冷淡的殼子,裝修時嵌到牆裡,沒有專用工具絕對拆不開。一個廚房這樣一台就塞滿了,不過管它呢,有了這個,要廚房何用?
本體安裝加調試加5年保修收你10w貴不貴?你掐指一算,再也不用做飯了,等於5年雇了個保姆,一咬牙一跺腳,買!
然後咱們再來整理一下思路:
你在app上告訴機器你要吃A,機器由此得出需要用到BCD,通過二維碼在原料中找到BCD之後,根據順序E放入F鍋中,用溫度G烹調上H小時,最後通過裝盤機把做好的菜送到你手邊,app上再給你打上一句:飯菜出鍋,小心燙嘴。
感不感動?智不智能?
這一點都不智能,只是個調用資料庫的程序,隨便找個本科生對著菜譜估計都能寫出來。
是不是想起了某矽谷的智能網紅榨汁機?
別笑,這玩意雖然侮辱了大多數人的智商,但是基本思路是對的。這個思路是整個人類工業體系解決問題的思路:前期麻煩的事分步驟大批量集中做,最後簡單的事才讓用戶自己做。以及另外一個賺錢的思路:不賺耐用品的錢,賺耐用品帶來的消耗品的錢。
有沒有覺得做菜機能做的事情實在太少了,10w買得有些不值?
再舉個例子,題主覺得不過癮,想要一台又能做菜又能洗褲頭的機器。
我司的工程師專門為你又改進了方案:
在做菜機的外層加一層滾筒,你可以把你的褲頭放到這層里,做飯的時候順便洗褲頭,用做菜的高溫殺滅褲頭上的殘留細菌,一舉兩得。
是不是覺得有些傻。
不知道看到這裡有沒有發現一個規律,這台機器想要實現設計外的功能,只能對機器本身進行改進。
然而人卻不是這樣。人可以完成好多說明書上沒有的事,如果真有這麼本說明書的話。
扯得有些遠,再回到人工智慧。
我所理解的「人工智慧」,不是用來對付「做菜」、「洗內褲」這樣的工作的,而是用來對付「這塊肉這麼硬按照菜譜炒不熟怎麼辦」、「不小心把主人內褲洗漏了是什麼體驗」、「我的坑貨主人跟我說『隨便整倆小菜來個啤酒』的時候我應該做什麼」 這類不按套路出牌的問題的。
機器什麼時候才能變得無所不能呢?
對不起這鍋人工智慧才不自己背,得硬體設備過來一塊背。
人類千百年前長成了現在這個樣子,以兩隻胳膊兩條腿的姿態為基礎建立起的生產生活,所以個人猜測,在很遠的未來,機器發展趨勢可能有兩個極端:
【A】操作端設備極度趨近於人形。用人形機器人代替人類進行工具的使用,包括操作其他的機器設備,「人」和「人形機器人」的位置可以完全互換。
【B】徹底拋棄所有機器關於「人」的部分,完全閉環,人類只需要看著一坨黑盒子里生出自己想要的東西就可以了。
假設人類的科技樹每項最高值為100,那麼:
達成成就A所需要的【人工智慧】指數為100,需要的【硬體性能】指數為30.
達成成就B所需要的【人工智慧】指數為40,需要的【硬體性能】指數為100.
那麼人類現在的科技樹點到哪了呢?
以我個人所能了解到的部分,大概是【人工智慧】指數5,【硬體性能】指數20吧。
以上兩個成就,【二】的難度就目前看來要遠遠大於【一】。從物理層面上提升機械設備的性能,並不是一個明顯的循序漸進過程,而是需要類似於「工業革命」這樣的重大突破。
人最終不可能改變物理法則,但是相信不久的將來,人工智慧能夠進化到足夠去應對這些法則。
就跟人類現在用自己的腦子所做的一樣。
AlphaGo只是一個計算機程序,圍棋是一種規則簡單,變化無窮的遊戲,無論規則或者勝負條件都可以用數學語言很好的描述。類似的問題諸如圖像識別,語音識別這些只需要演算法而不依賴硬體的問題,是單純的CS,需要的是程序員。
然而你所說的洗褲子,做飯等等這些,需要的不僅僅是演算法,更需要一個執行器(機械手臂,類人形機器人)來執行相應的動作。這些需要硬體來執行的問題,在我看來是更困難的,因為決定是否成功的不僅僅有演算法,也在於硬體本身。
所以我的簽名叫做"The more we study robots, the more we understands humans."。因為只有在使用機器人去解決實際問題的時候,你才能更了解你自己,才會感慨,原來人是一個多麼奇妙的存在啊。人的硬體條件是任何一個現存的機器人所無法比擬的,我們全身的皮膚上,有無窮的感測器,我們可以在任意一點感受壓力和溫度,我們的視覺反饋和運動控制配合的天衣無縫。和大部分剛體的機器人不一樣,我們的肌肉是有彈性的,可以儲能並釋放,這增強了我們做一些dynamical movement,例如拋擲,跳躍的能力。
大多數機器人硬體和人類本身的差距還是非常遠的,這也意味著很多你習以為常的動作,如果需要機器人去執行都是非常困難的,感測器就差了太多,即使使用大量的感測器,如何處理這些數據,也是問題。剛體的機器人,可以做到非常精確,但是沒有彈性意味著很多人可以動作在剛體機器人上都無法實現。我知道DLR現在在做一個新的機械手臂叫做Hand-arm system (Hasy) ,其中加入了類似彈性的機制,但是因為有了類似彈簧的機制,精確的控制又是一個很大的問題,因為彈性的機制會增大系統的震動,我在DLR的時候還很有一部分同事在研究Hasy的控制問題
最後,今年去柏林參加一個機器學習和機器人的summer school,機器人界的泰斗之一Prof. Oliver Brock說了類似這麼一段話:AlphaGo是挺讓人驚嘆的,但是你們有沒有發現,無論它下棋的路數多麼精妙,但是實際在執行下棋動作的,還是個人啊!這是否說明,robot manipulation比下圍棋什麼要困難得多啊!
題主不要想當然。你覺得那些盒裝便當是怎麼生產出來的?難道要人去淘米切菜嗎?這些東西早就實現了。
他只有三個問題:
- 設備超級貴
- 維護成本高
- 沒有別的用途
但是你不能說它不存在。
因為這些工作所需要的智能程度遠遠高於自動駕駛,更是遠遠遠遠高於圍棋。
圍棋的困難之處在於盤面的可能性極多,不可能像五子棋、象棋一樣使用較為簡單的搜索演算法來解決問題(即使投入全宇宙的資源做計算機)。
但是相比之下,圍棋又是一個極為簡單的問題:規則明確,所需的信息完全由19*19個棋盤交叉點決定,沒有任何不確定性。而且AI與物理環境的交互完全為0。
自動駕駛比圍棋困難得多:首先信息不完全,車輛只能通過各種感測器收集信息,而不能簡單讀入361個數字;不確定性也出現了,不但各種感測器都有誤差和局限性,甚至規則(交規和常識)本身都有很多模糊的地方。而且無論準備多少億英里的訓練數據,都可能出現完全沒見過的特殊情況(圍棋的局面不會「完全特殊」)。車輛也處於物理環境,而不是虛擬的棋盤。
即便如此,相比之下,自動駕駛也是一個相對簡單的問題:車輛本身不與物理環境進行任何直接的接觸,所要做的就是避開接觸(碰撞)。車輛對於環境的感知一般分米級精度就夠了,最多也就是厘米級,並且物體(如人、車)精準的姿態和輪廓對於決策通常是不重要的。
而使用機器人給你做菜、煮飯、洗衣服等等,就集合了前面提到的所有困難,是當之無愧的史詩級大boss挑戰。
首先信息不完全,需要用感測器感知,而且對感知精度和細緻程度的要求遠遠高於自動駕駛。對於自動駕駛,你只要知道前方大概3.5米有個車就行,但是機器人需要將一個土豆定位到毫米級,並且精準識別出輪廓(甚至三維形狀)才能正確操作,甚至有可能需要觸覺。如何感知衣服、線纜這樣非剛體的柔軟物體的形態,對於機器人界還是極端困難的問題。
家務機器人與環境的交互也比自動駕駛複雜很多:不僅僅要避開碰撞,還要與環境進行物理互動,達到預期的效果。
想像一下你把衣服用衣架掛起來這個動作吧!在這個任務里,你的視覺、觸覺精密配合,雙臂、雙手靈巧地將團在一起的衣服展開,將衣服掛上去。這一切對於人類現有技術還過於複雜。
總之,從信息完全程度、不確定性大小、感知環境所需的精度和細緻程度、與環境交互的程度等多個維度看 ,讓機器人做家務都是遠遠遠遠難於圍棋和自動駕駛的問題。而且我還沒有提到路徑規劃、柔順控制、輕型機器臂、靈巧手等機械、控制領域的大坑,也沒有提到如何理解人的意圖甚至情緒等問題。
以人類現有科技的水平,達到如3歲人類水平的抓取、操作物體都還有茫茫多的工作要做。作為機器人(手臂那種)一線從業者和多年的研究者,每每看到題主這樣的問題,想到人民的期待和我輩技術水平差距之大,真是令人汗顏,慚愧不已。
任重道遠,且行且珍惜。
你舉的兩個例子,其實是不太合適的。
洗內褲這事,其實已經實現了。
日本已經發明了自動洗衣櫃,你需要做的只是把臟衣服扔到洗衣格,然後它會自動洗衣,烘乾,疊好,將不同衣服分類放到指定的格子,再次打開就像一個普通衣櫃一樣直接拿衣服穿了。——這個極其科幻色彩的設備目前已經成為了現實,唯一的問題是價格不便宜,不過阿法狗的價格也同樣不便宜,對吧。——等到它的價格下降到合理水平,在我們有生之年恐怕能見到。
如果退而求其次,自動洗衣乾衣機就夠了,晚上睡覺扔進去,早上起床拿出來穿,我現在用的就是這樣的機器。
至於做飯這事,實際上是偽需求,不是么?因為阿發狗是極其昂貴的機器,而在家做飯僅僅只是為了價格便宜。如果為了省事,你只需要打開手機點進美團外賣,或者餓了么,你想要的就能實現。至於做這個飯的人是誰,有區別嗎?你為什麼認為周圍的世界是真實的,而不是一群NPC給你做飯然後送外賣過來?
人類啊,千萬不能用人腦對世界的理解,和人腦對解決任務難度的估計,去理解和預測人工智慧的發展路徑,因為目前為止——
人腦和人工智慧依然是完全不同的東西呀!!!!
感覺知乎最近答題體驗不好,常常需要截好題目再回答,否則可能題目改變了,可能會牛頭不對馬嘴:
我首先聲明,我對於AI可謂啥都不懂(之前本來想多接觸機器學習,結果遇到了知識瓶頸跨不過去了,而且工作上的事情也挺多,沒有太多時間做細緻研究),對於機械也基本是一個「半吊子」水準(本科機械,成績嘛……),所以我很難從具體技術細節去考慮這個問題,我只能強答。
我覺得題主的問題,其實可以歸納成「為什麼如今缺乏一套完備的生活自動化系統來實現我的所有工作」。我個人認為「智能家居」的理念或許可以對應題主的需求。當然了,現有的智能家居,還做不到這一點,甚至於可以說連「智能化」的入門都不太算。
因為現在大多數智能家居,所做的是「定製化」。
不論他們的描述多麼完美,但是終究還是沒有達到那一步,只是一個「經過全面定製之後的完美情況」,而不是一個「符合我們日常需求的智能化場景」。
個人認為,AI需要一個很重要的階段就是「學習」,而為了達到這個目的,就需要提供足夠的信息給它。所以AlphaGo需要大量的對弈練習。現在大多數智能家居最缺的就是這個環節:缺乏足夠的感測器或者說信息輸入系統。現在的一些智能家居產品,比如我大小米(我感覺我又要開黑或者開吹了)的智能家居產品,用戶對其的控制方法主要是「制定流程」:我告訴你怎麼做,你按照我說的做。這個行為核心就是三個字:工具化(或者定製化)。與「智能化」相比,可謂有南轅北轍之嫌。
所以理想的「智能家居」,其實大多數時候是不需要「人」去干預的,或者只需要人去「評價行為」就好,不是直接讓人參與進去。
那麼為什麼各大廠商不試著去解決一個問題呢?
我們來考慮一下,我們要搭建這樣的一個智能化家居系統,首先要什麼?信息!不論從哪個方面,智能家居必須首先要對於自己要做的事情有所了解。例如AlphaGo也需要人類告訴它圍棋的基本規則,而且還要在對弈中不斷吸收「經驗」。除此之外,還需要有評價標準,可能你的智能家居白天開了一天的燈,那麼你肯定要對這個行為下一個基本的判斷(明天不要開了之類)。那麼這個智能家居要怎麼做到這一點?或許有兩個方向:一個是依託雲服務平台建立一個超級規則資料庫和評價標準資料庫,一個是通過巨量的感測器來全方位地採集儘可能全面的環境信息。這兩個方向,前者是「學以致用」,後者是「自己領悟」,二者的結合或許是最好的。
有了這些信息就需要AI依據實際情況去處理,需要有出色的演算法或者數學模型作為依託,不過這個或許不是最困難的部分。我猜測這個方面,現有的技術應該已經能夠在一定程度上滿足要求,在一定的時間內實現功能。
實現功能部分,這個和很多方面都有關係,比如題主說的切菜、淘米之類,這個就和機械息息相關。當前的智能家居,也只能實現類似「開關」的功能,不是1就是0,而很難實現非常精確的控制。類似淘米、切菜之類,在機械上涉及到多個自由度的控制,難度可想而知。
於是我們發現有三個問題需要解決:
- 足量的信息收集方式及條件。
- 強大的人工智慧演算法。
- 能夠完美地完成任務的機械系統。
一定要說,現在也就是第二項得到了比較充分的解決(樂觀估計)。
第一項看似簡單(似乎是堆一堆硬體的事情),但是問題在於兩個字:成本。
第三項則是現在機械工程中的一個難點,現在的大多數機器人,所在做的事情幾乎也只是「按照設定的要求進行運作」,缺乏必要的「動作學習」能力。現在的大多數機械系統,甚至連很好地「模仿」人類的一些行為都很難,X年前簡單的路徑規劃的結果就是「認死理」一般走到頭(我的大學畢業設計),而充分考慮反饋和魯棒性之後,類似前幾年的美國波士頓動力的「大狗」機器人,其能力也還未能完美達到要求,這還僅僅是幾個場景而非所有場景。理想的解決辦法就是需要給機械系統增加足夠的信息獲取能力(相當於擴大反饋信息來源),類似於增加大量的感測器,在各個結構中實現「行為學習」。如果是這樣,就回到了第一個問題的難點:成本(不論是資金還是時間)。而且注意,這還僅僅是單個功能,要是要達到徹底全面的「智能家居」,還需要有功能調控、綜合分配等等(感覺難度已經快超越一個加工中心了),到時候房子可能都不是我們以前想的「房子」了,我們將會稱為一個生活在大型機械盒(只是看起來很像房子)之中的人……
所以嚴格來說,阿爾法狗並沒有下過李世石、柯潔,畢竟它們會「走棋」,但是不會「走」棋。因此雖然科學家即使已經在第二項做到了很高的水準,但是卻無法滿足題主的要求。
那麼進一步考慮一個問題,那就是為什麼這兩個方面缺少發展?
個人認為,關鍵就在於一點:「市場」。
任何成本的增加,最終肯定是需要消費者來承擔的。那麼問題來了,即使公司提供了相應的條件,這個成本的分攤,消費者願意嗎?
如果有人購買過小米的智能家居,就會發現那個感測器貴得離譜(單個購買都要幾十塊錢),保守認為這些感測器的成本應當是不低的。那麼「巨量」的感測器,帶來的結果就是成本的極大提升,而對於大部分人來說,這個成本的提升空間,可能超出了其支付能力的可控區間。沒有了市場支持,以盈利為核心目的的公司,就很難投入足夠多的精力和資金去搞這個研究(畢竟雖然說是堆料,也不是隨便堆就行的)。
有一個比較好的契機就是等待技術發展到一定程度之後,降低具體的技術成本和實現難度。但是基於這個基礎,那麼就只能說隨緣並且遙遙無期了。從理論到具體的應用場景的轉變不是短時間就能實現的。就說這其中的機械相關問題,因為機械現在不太算是一個「熱點學科」,能夠吸引的人才數量有限,而且機械這個學科還是比較廣而雜的,一項技術成果可能是多個方向共同促成的結果(材料、控制、通信等),不是僅僅一個實驗室之類就能輕易完成的研究。機械與電子信息的結合雖然是熱點,但是僅僅應用在一些規模較大、剛需較強的場合,類似於一般的家庭場景下,所能帶來的差異性非常有限。
當然還有一種可能,因為日常場景是可以通過足夠的量化手段將其作為一個特定的模型來進行研究,而與之類似的模型可能有很多種。如果眾多相似的模型中有一部分得到了充分的研究,那麼對於其他模型的技術積累有利,經過一定的調整和普及之後,或許能讓這一切更早地出現(比如柔順機械臂的研究或許能夠實現切菜之類的功能,或者是智能型的戰場綜合分析系統可以為智能家居場景提供一定的幫助)。但是這中間的技術轉換還是需要時間的,最重要的是,如果沒有達到真正痛點,解決真正的問題,或許還是空有技術基礎。
因為圍棋問題在博弈論里屬於 Combinatorial Game 類問題,也就是要滿足 零和的 / 完全信息的 / 非實時 / 回合制 等條件。因此雖然解空間很大,但只要滿足上述先決條件還是可以用神經網路慢慢做的。然而稍微鬆弛某些條件,比如 不完全信息實時遊戲像星際, 現在還有比較大的挑戰。對複雜現實環境的交互就更不用說了。
我覺得都跑題了。
提問者所舉的例子,首先是和AI關係不大。其次是這些並不是做不到,而是成本所限,簡單說就是人力太便宜,機器不划算。
在食品工業裡面,從原材料到成品完全不需要人參與是很正常的事情,遠的不說,橙汁機目前就已經可以小型化擺在街上,從選橙子到切開榨汁丟棄橙皮全套都是機器完成的,不需要人做任何事情。如果不計成本,那麼做一個辣椒炒肉機或是蛋炒飯機也不見得做不出來。只是這種機器目前無法小型化和家用化而已。
換句話說:因為你窮啊。
當然,如果你退而求其次,允許部分工作由人類完成,那麼你只需要下載一個叫做餓了么的應用,在中國大陸範圍,已經可以享受這種服務了。
機械化的罐頭生產線是有的。
要在一端把西紅柿和雞蛋扔進去,調料放到儲藏罐裡面,另外一端輸出一盤西紅柿炒蛋。
這個檔次的技術,對現代工業無難度,只是你家裝不下這套東西,你也買不起。
如果要求個人一樣,會用刀,會用廚具,會開天然氣,會裝盤……
這個技術難度是地獄級別的。
一個機器視覺識別西紅柿,機械手把西紅柿從塑料袋裡面拿到菜板上就不容易了。
讓人工智慧切西紅柿,打雞蛋,炒出一盤菜來……
有這個技術會先造無人機,無人車,機器人戰士題主,你對「簡單」二字一無所知...
做飯,洗衣服,洗碗這些動作所需要的基本識別/判別/行動的能力,是你的祖先進化了幾千萬年才獲得的超能力,你居然覺得簡單?
對AI的研究到100年了嗎?
要求不要那麼苛刻啊大哥...感覺大佬們沒有抓住重點。
重點在於"通用"二字,all-purpose。
機器人和ai演算法是具有共同問題的,您可以針對某個單一功能進行強有力的設計和實現,但是離"通用機器人""通用ai"還很遠。
alphago下圍棋沒有敵手,它不換模型能下跳棋嗎?
計算機人臉識別精度超過人類,它能識字嗎?
誰說機器人不會給人洗內褲、做蛋炒飯了?
自動洗內褲,不就是帶消毒還能添加草莓味的小洗衣機嘛。
做高貴的蛋炒飯,定製一套炒飯機,全自動加料加米加蛋告訴翻炒閉環調溫,絕對能做出來黯然銷魂的蛋炒飯。
好吧,你說那不叫機器人,長得不像人。
嗨,概念之爭咱就不提了。沒問題,搞個機械臂來實現,改一改末端執行器,加個人形底座照樣像人,絕對不耽誤強大的功能。
但問題是,我們定製一套功能很強的機器是沒問題的,只用來炒蛋炒飯可以,但做宮保雞丁就不行了。自動化殺雞宰魚都有了,工廠里噴漆焊接搬運重物也有了,但是它們的功能不通用。
所以,人還是最吊的。這很正常,因為AI有兩個分水嶺式的主軸:關鍵性、物理性。不同的AI應用差距太大,沒辦法知識遷移。
AI的應用可以分為非關鍵的虛擬AI、非關鍵的物理AI、關鍵的虛擬AI、關鍵的物理AI這四大類。
非關鍵的虛擬AI不具備物理實體,在出現錯誤時不會有災難後果,例子有:圍棋AI、翻譯AI、推薦系統AI等等。
非關鍵的物理AI具備物理實體,出現錯誤不算災難性,例子有智能家居AI。
關鍵的虛擬AI不具備物理實體,但是搞壞了會死人的,例子有金融AI、行政/政治AI(如果你沒有聽說過,那是因為這個還是個概念性的東西)、高級診療AI(用聚類演算法分析腫瘤不算哈)等等。
關鍵的物理AI是最難研發的,例子有全自動無人駕駛汽車/飛機、軍事機器人等。
以上四類都是AI,但是技能要求和研發難度天差地別(沒有貶低任何一者的意思,純粹是技能樹都不一樣)。AlphaGo用到了Residual Net、Monte Carlo Tree Search、Reinforcement Learning、Batch Normalization等等一堆技術,而洗碗機器人要什麼呢?我甚至都列不出來(因為技能樹都不一樣,可能要一些自動控制吧?)
所以……沒有所以……很正常啊。
中間還有一個數碼世界到物理世界的模擬。
李世石的時候,黃教授替AI下子呢。按照這個思路,應該是AI計算出如何燒飯最好,然後黃教授替你買米掏米燒。。。。
圍棋(或者說數學)和做飯的關係,就跟真空中的球形雞和你鍋里煮的雞的關係一樣。
理論看起來晦澀難懂,但實際上是這個世界最簡單的部分,因為它是清晰的,每一步邏輯都是明確的,很少有混沌帶來的陰霾,就算有,人們也會想辦法減少其影響。
而現實看似簡單,實際上卻是一個巨大的混沌系統,彼此之間的相互作用受到無數種因素的影響,以至於我們無法僅用幾個數學模型來描述。典型的例子就是天氣預報。
做飯也是一樣的,每個步驟看起來簡單,那是因為其中最複雜的成分已經被進化打包成了「黑箱」模塊:
你無需知道你的味覺系統如何測量「氯化鈉濃度」;
無需知道你的額葉神經元如何計算「所需鹽分」;
無需知道中央前回是如何指揮你身體的數十個大肌肉、指尖的肌肉和無數個壓力感應器協調地完成「拿起勺子把鹽均勻地抖進炒菜鍋」這個動作;
你不必知道這些系統是如何運作的,就能為自己做一頓豐盛的大餐。
換言之,進化這個工程師已經為人類做好了系統,我們這些用戶只要使用就好了。比起寫一個系統,使用它當然簡單得多。
我們之所以覺得圍棋難,是因為我們的操作系統里沒有安裝相應的專業處理程序(進化工程師覺得沒這個必要,它沒料到我們會有需要處理數理邏輯的這一天)。
打個比方,人腦是台電腦,我們裝了一系列專業級的圖像處理和繪圖軟體,是天生的美術大師,畫畫對我們而言就是點點滑鼠的事情。突然有一天,我們鬼使神差地開竅了,邁入科學時代,要做大量的數學統計和相關性分析,卻發現matlab、stastic這些東西通通沒有,只有一個系統自帶計算器,普通人的是加減乘除計算器,聰明點的是科學計算器,那些大師級的可能還裝了個excel。
對這台電腦的使用者而言,數學比畫畫難得多。
但對程序員而言,寫一個ps的程序,比寫一個計算器的程序難得多。
占坑。寫完這個MP我通過代碼來給大家科普一下這裡頭的來龍去脈,講一下阿爾法狗的原理。順便教大家用python寫幾個下棋的人工智慧小遊戲(但是這些代碼,難度是非常高的。如果不是非常熟練的高級python開發者,您湊個熱鬧看看就可以了)。
實際上AI有很多種分類方法。其中一種是按照deterministic還是probabilistic來分類。前者更多的是是與博弈論相結合的(阿爾法狗在思想上採用這種原理,細節上運用深度學習),後者更多的是與機器學習相結合的。
其實最好的方法是去看StuartNorwig的人工智慧:一種現代方法。
推薦閱讀:
※如何看待波士頓動力2016.2.24的新版機器人和人工智慧的關係?
※到目前為止(2015),人工智慧領域有哪些面向強智能(完整的,通用的智能)的模型?
※在日本學造機器人是怎樣的經歷?
※在剛剛結束的東京國際機器人展上,有哪些值得研究的機器人?
※遺傳演算法能不能優化演算法?