這一波人工智慧泡沫將會怎麼破滅?

很明顯的,以深度學習為主力的這一波人工智慧浪潮,從我高三吹到了我大四畢業,很明顯深度學習不可能處理複雜的任務,雖然號稱模擬大腦,但是幾乎與認知科學的研究隔絕。各大互聯網公司都爭先投入大量資源,連英偉達都加入戰團。

我感覺深度學習致命一點是不能應用在太多普通用戶的產品上面,只適合搜索引擎和學術方面,現在主要的產品基本都是為搜索引擎服務的,普通的創業者根本沒機會玩,數據不如大公司多,普通用戶也沒有那個需求。

深度學習既不會像圖形操作界面或者互聯網那樣改變大部分人的生活,也不會像3D列印那樣有改變生產方式的趨勢,20年之內幾乎不會減少白領的工作量。

看來深度學習很精巧,結果很漂亮,實際華而不實。


作為金融前從業人員說一句,其實泡沫是個金融概念,比如O2O泡沫,VR泡沫等等。而例如理論數學理論物理就無論發展多好也不會有泡沫,因為從來就沒人投資(感嘆)。

所以判斷是不是泡沫,不是看學科的發展如何,而是看學科的資金流入。當投資者聽到"人工智慧"就搖頭的時候,泡沫就破滅了。

在這個意義上人工智慧有些危險,因為現在變現似乎是個難題。資本永遠是逐利而短視的,如果只有好玩的結果,沒有能快速變成足夠多錢的結果,不久這個遊戲就會無以為繼。

如何儘可能地把成果真正變現,或者讓投資者更清晰地看到變現的道路,而不是畫餅,這確實是AI從業人員此時需要更多思考的問題。

首先刷ImageNet當然不能變現。人臉識別的空間也不大(國內有很多人臉識別的startup,因為夠簡單夠成熟,然而壁壘和盈利能力如何,大家心裡清楚。是的,現在有投資者養著,但以後呢。是的,可以賣給安防公司,但這是當初描述的遠大前景嗎)。只有自動駕駛是稍微靠譜一點的,然後可能到醫療和基因工程,至於語音助手還很遠。自然語言識別好像就只能做炒股機器人了,而翻譯怎麼變現請告訴我(評論里有朋友還奇怪怎麼不能變現,您這個變現不是VC想要的變現)。說起來現在有一個深度學習真正變現了的領域,就是廣告和推薦,但所有需要這個的公司都成立了自己的團隊,沒有創業的窗口。在模型共享化的今天,許多方面的技術壁壘已經被無限降低,許多所謂AI創業公司都只是拿公開的模型來調而已(然後向投資者大吹技術實力)。

很直接地說:目前看來,AI可能並不足以支撐一個獨立的公司,它更適合作為其它公司的一個部門,或被其它公司收購。如果你做社交APP,做電商,做遊戲,做生物,做材料,都可以自己活下去。但做AI,就會有難度。如果你幻想技術授權,或SaaS,你可能最終難免會失望。理想很美好,現實很骨感。

資本很沒耐心,之前的波士頓動力大狗機器人看上去是不是也超酷,最後還是要被Google掛牌出售(感嘆)。前幾年許多公司狂招DL人才,怕的是lagging behind,但後來就有點有苦說不出了,因為人太多了,不需要這麼多。我調查了一圈,發現Nvidia的股價可能都虛高了,因為大家甚至不需要那麼多顯卡來訓練!看來只能看NVDA能不能開拓好自動駕駛市場。

這有時令人想起生物。所有人都知道生物的前景光明,前途無量,必將改變人類的命運,生物的世紀必有一天會到來,生物已經有無數的應用,無數的盈利模式,而且生物還在日新月異地發展,時不時搞個大新聞。這麼看來生物真的很好啊!但是現在有多少人往生物跳呢?繼「生物民工」之後,會不會出現「調參民工」(什麼?調一層十元錢?)?生物的今天是不是人工智慧的明天?(補充:可能90後00後的同學不知道,那時有句話叫"21世紀是生物的世紀",後來令無數人懊悔不已

在各位PhD同學和startup工程師陶醉於人工智慧的美好未來之時,請警惕生物的前車之鑒。生物現在依舊是熱門的創業領域之一,只是大家更加理性,因為已經吃過了泡沫的虧。目前DL之所以這麼熱,很重要的原因是因為DL的幾位領軍人物很聰明,在很有意地試圖引導資本(尤其是現在大家都來找國內資本,因為國內資本更多更笨),但資本不會被忽悠太久。

最後說一個我發現的規律,這是一個令人憂傷的故事,就是如果學數學物理的同學都開始湧進某個行業,這個行業就必然會出現泡沫的嚴重化和最終的破滅,就像從前做金融衍生品,後來做APP,等等等等。哎,俺們學基礎科學的就是慘,哈哈。

===========

看到評論好像還是有同學沒明白,最後補充一句:這裡的問題在於和生物的情況太像了,都是要研究很多年才能實用化。生物一個小領域活兩三家公司更沒有問題,基因就可以活n家公司。自動駕駛重要,還是治療疾病重要?我覺得治療疾病一點也不差吧。識別準確率進步10%重要,還是癌症5年生存率進步10%重要?好像不能說生物就低一等吧。但是學生物的同學肯定就很鬱悶了:憑什麼AI現在就這麼熱呢?這時我要說,生物也曾經熱過嘛,大家都有這個過程。

泡沫破滅了之後,也並不是說就沒有人研究,沒有人投資,沒有人創業了,而是回歸理性,成為公司的一個正常部門(比較遺憾的是薪水和就業可能不會像現在這樣好了),而不是一個投資概念,一個炒作題材。就像360老周說的實在:「今天再出來做一個公司,你要不說自己是用深度學習、人工智慧,你都不好意思出來混。就跟前兩年,你要不說自己是O2O,都不好意思去融資一樣,我覺得這個有泡沫的成分。」


細數一下2000年以後的學術浪潮: 2003年LDA topic model剛出來的時候,火的不行,按我師兄的話說,整個實驗室都在坑此坑次熱火朝天的搞topic model,恨不得每篇文章裡面都建一個Graphical model加一些隱變數進去,那時候的盛況我是無緣得見了。。2004年MapReduce論文剛出來,以及後來MapReduce的開源實現Hadoop出現,算是掀起了新的一波數據熱,各個領域各種問題都能扯上大數據三個字,一個傳統演算法只要用MapReduce框架改寫一下就可以發篇文章;2010年Spark 出來之後Hadoop在學術界就不怎麼能看到了,簡單來說是因為Hadoop不能支持在線計算;2010年左右深度學習出來了之後,在很多應用上效果完爆topic model,現在在NLP領域內的會議里topic model的文章已經沒有以前那麼多了。。

泡沫之所以會破,是因為人們找到了更大更漂亮的泡沫,一樣技術被取代也是因為人們發現了比他更牛逼更有前景的技術。但從目前來看,深度學習在語音識別,圖像,NLP等很多領域的效果都非常好,訓練時間和模型複雜度也還在可接受的範圍內,並沒有出現其他可以相提並論的技術,所以我覺得深度學習在很長一段時間內都還會在學術界火下去。而通常工業界的普及要比學術界的工作晚個5-10年以上,相信深度學習在未來一段時間裡都還會頻繁出現在大家的日常生活里。

更新:
最後貼一個最新的Deep Learning創業公司匯總貼,包括Computer Vision, Natural Language, Vertical-Specific等方向,有些公司還蠻有意思的,推薦看看:
Deep Learning Startups, Applications and Acquisitions


首先當然目前的技術離通過圖靈測試有很大距離,但是一個基本事實在很多應用已經基本可用。舉例來說,目前的語音識別技術雖然很多條件下隨便就有幾十的錯誤率,但是在一些及其特定的條件中錯誤率可以接受。類似的還有機器翻譯、也許還包括人臉識別、無人車等等。其實目前AI之所以這麼火,很大程度上是在這幾個應用中取得的長足進展帶來的,它們本身也直接或間接的產生了巨大的經濟效益:看看Google、Apple有多少通過語音的搜索量就知道了。這應該是這次deep learning而帶來的泡跟之前AI中其它的小泡的最大差別了。

作為一個技術吹起來的泡,我覺得還是有必要看看目前技術發展的情況(雖然我可能不夠資格談這個)。其實這次deep learning流行十年來最大的問題應該還是缺少重大的理論突破。目前實際產品中用到的技術,比如規則為主的對話系統、類HMM的語音識別器、神經網路分類器的人臉識別等等都已經是至少30~50年前就創造出來的技術框架了,甚至是結構很新穎的seq2seq的機器翻譯也有人在爭論類似的idea很多年前就出現過。Deep learning之所以推進了這些研究的進展很大程度上是因為它無論是做分類還是回歸可以有比其它模型更高的精度,而分類和回歸可以說是多數統計機器學習演算法的基礎。同時神經網路對輸入特徵沒有限制,方便利用更多信息,並且以矩陣運算為主,非常容易優化和大規模使用(這樣又利用了大數據的優勢)。另外Deep learning涉及到的主要數學知識很簡單,基本上學完高中數學的人都可以不太費勁的掌握基礎,這樣也減低了門檻。至於涉及到的具體技術,比如RNN(1980+)、LSTM(1995+)、CNN(1990+)、ReLU(1995+)都已經至少二十歲了…… 我唯一能想到的主要的新idea就是GAN了, 但即使是GAN Schmidhuber教授還堅持認為這個跟他從前的idea有多麼相似(而且我暫時還沒有聽到GAN有明確的應用產品,歡迎補充糾正)。甚至GAN的作者Goodfellow自己在Deep Learning一書里也寫了類似的話:

『We expect that many readers of this book have heard of deep learning as an exciting new technology, and are surprised to see a mention of 「history」 in a book about an emerging field. In fact, deep learning dates back to the 1940s. Deep learning only appears to be new, because it was relatively unpopular for several years preceding its current popularity, and because it has gone through many different names, and has only recently become called 「deep learning.」 The field has been rebranded many times, reflecting the influence of different researchers and different perspectives.』

用Google翻譯下就是說:

『我們希望這本書的許多讀者都聽說過深度學習是一個令人興奮的新技術,並且在一本關於新興領域的書中提到「歷史」,感到驚訝。 事實上,深入的學習可追溯到20世紀40年代。 深度學習似乎只是一個新的東西,因為它在當前流行之前的幾年中相對不受歡迎,而且由於它經歷了許多不同的名稱,而且最近才被稱為「深度學習」。這個領域已經多次改版了, 反映了不同研究者和不同觀點的影響。』

甚至到目前為止Deep learning本身的理論也很模糊,多數重要的工作往往基於一些直觀上很make sense的點,比如把改一改結構、網路加深下、消除下gradient vanishing、加一些skip connections、利用些額外信息等等。更麻煩的是作為多數工作基礎的SGD優化本身就很難分析管理,大家為了並行化SGD還在經常在沒有任何理論依據的情況下把演算法改的更加不清晰。有些事情從嚴格的學術角度講甚至有些難以接受,比如很多流行的deep learning軟體包在更新前後運算的結果會有差異(TensorFlow更是在默認配置下每次運行都會有隨機性)。

從這些角度講,即使是Deep learning本身也還遠遠稱不上完善,有很多工作還可以做。所以如果關注下相應的學術會議就可以發現每年在各個領域基本都會有些實質性的技術進步。這樣累積一段時間反映到現有產品中有長足的進展(畢竟產品中能實用的技術往往都不算尖端),從而改善用戶體驗,促進更多的用戶養成習慣,擴大市場規模,最終產生更大的經濟效益。或者技術的進步也會導致更多的應用場景有實用價值,比如視頻的識別分析(類似真正的『視覺』)、準確的語音翻譯、無人駕駛的計程車等等。而且應該可以預期會有更多的應用方向被『發明』。基於這樣的判斷,我個人覺得這次的Deep learning的泡不會破,反而會隨著泡泡中乾貨的增加而不斷長大。而且未來如果計算機領域本身有重大突破,比如量子計算等等,都會對人工智慧有重大促進。

其實AI本身就是一個大坑,也許比互聯網還大。想想一兩千年前的祖先們也許沒誰想到互聯網,不過類似創造智能機器的傳說卻有不少。大的方向來說,在每個產業中,機械化-&>互聯網化-&>智能化也許都會是發展方向。


很明顯深度學習不可能處理複雜的任務

按照二八定律,只要能解決簡單的問題,就已經解決了大部分的問題。所以無所謂。

不能應用在太多普通用戶的產品上面

即使是最爛、同時也是經典的圖像識別任務,網路女主播的自動面孔識別,停車場改善車牌號識別,算不算普通的產品?

你說這話,說明你對身邊的科技產物毫無直覺並且習以為常。

看來深度學習很精巧,結果很漂亮,實際華而不實。

都在瞎逼調參、調結構、調學習方法,和生物搬磚一樣,精巧個蛋。


謝邀。

現有@ht0601052726 的回答很漂亮,但有幾個點難說是正面回答。試借他的格式回答一下。

很明顯的,以深度學習為主力的這一波人工智慧浪潮,從我高三吹到了我大四畢業

PGM, SVM, Non-parametric Bayes, Matrix Factorization很多都比DL古老而且火得久了。

,很明顯深度學習不可能處理複雜的任務,

機器翻譯算不算?http://arxiv.org/pdf/1409.3215v3.pdf
從圖片生成描述算不算?http://research.microsoft.com/pubs/209006/autocaption_wacv2014.pdf
玩遊戲比人強算不算?https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

雖然號稱模擬大腦,但是幾乎與認知科學的研究隔絕。

這個問題要分兩個方向:
1. 據我所知主流做DL的沒有號稱自己是模擬大腦的(不包括Human Brain Project等,那些項目的主要任務是模擬大腦而不是learning),大家都強調ANN只是生物神經網路的一種非常簡化的模型,只是產生了一些現象和生物神經網路類似,值得注意——多的都是媒體鼓吹的;不過有很多DL的靈感的確來自於認知科學,比如Attention-based model之類的。
2. 認知科學倒是熱衷於拿DL的模型作為一種人腦部分結構的計算模型來研究,並且得到了一些有趣的成果。

各大互聯網公司都爭先投入大量資源,連英偉達都加入戰團。

資本都是逐利的。互聯網公司加入是因為DL做的系統效果好,需要人工調試和專家處理少,並且能達到相同或者更好的效果。舉個例子,如果siri用傳統模型十句錯三句而cortana用DL一百句錯三句,那siri的市場份額就會丟失,利潤就會減少。

nVidia單純是為了賣GPU——DL帶起來了GPU科學計算的市場,從此GPU不再只用來裝載超級計算機里算天氣了,誰都想買一個回家跑caffe,錢就來了。nVidia還在積極開發基於n卡的各種商用演算法庫,加大促銷力度。

我感覺深度學習致命一點是不能應用在太多普通用戶的產品上面,只適合搜索引擎和學術方面,現在主要的產品基本都是為搜索引擎服務的,普通的創業者根本沒機會玩,數據不如大公司多,普通用戶也沒有那個需求。

普通用戶:Siri / Cortana / Google Now這種語音個人助手不說,百度搜索里的百度識圖、Facebook上傳照片之後做的人臉識別(Renren不知道)裡面用的都是DL技術。

創業者:DL既然是技術肯定有它的技術壁壘,但用DL創業也不是不可能的——首先你得懂。參見5 deep learning startups to follow in 2015

深度學習既不會像圖形操作界面或者互聯網那樣改變大部分人的生活,也不會像3D列印那樣有改變生產方式的趨勢,20年之內幾乎不會減少白領的工作量。

題主對科技(尤其是信息技術)的發展速度太悲觀了。Google誕生到現在也不到20年,20年前就是一個美國教育網內搜索的玩具產品,完全看不出帝國風範……

看來深度學習很精巧,結果很漂亮,實際華而不實。

很多大公司已經深入在一線產品上用DL技術了,題主可能不知道而已……


無人車之類實體機器人、各種想「替代人類」的應用。這些領域不屬於純演算法問題,不適用互聯網行業的發展速度,容易誤判回報周期。機器學習需要反饋(相當於圍棋里的得分規則),但現實世界的反饋緩慢而昂貴。期望速戰速決顛覆傳統行業的企業和投資人,會在慢慢解決傳統問題的泥潭裡耗死。

對比飛機的自動駕駛用了幾十年了也沒法代替飛行員。大貨車如果自動駕駛,在過美國西部沙漠高速公路的時候駕駛員可以切到自動模式然後起身休息,僅此而已。至於無人計程車,L4=地上跑的億航184載人無人機,我們談談共享汽車吧。

硬體公司可以成功,但不能指望速勝。大疆無人機的稱霸之路歷史悠久、最牛的硬體公司SpaceX和Tesla的發展速度以互聯網標準也不算快,注意Bezos的家當比Musk多兩個數量級。

有個假說叫技術奇點,AI加速發展到爆炸性階段的時刻。既然用了黑洞奇點的比喻,別忘了奇點附近的潮汐力:跟奇點不同距離的物質所受的重力加速度的差異會撕裂一切物體。隨著AI的加速發展,行業間的發展速度差異還會進一步放大,直到VC的投資經理無所適從甚至撕裂社會的程度:行業賽道的發展速度和所需的資金注入速度變得完全不可預測,容易用力太猛慢慢耗死,或者用力不夠錯過時機,如果慢牛閃崩(半路被隔壁賽道顛覆)更噁心。

到目前為止,AI最成功的應用一般帶有「組織術工具」性質,或者說「構建人類社會的大腦」。包括安防監控,DL發家的典型應用;還有推薦系統(網購、timeline等),幾年前的教科書式典型應用,現在已經普及到完全被開除AI籍了。

回顧過去30年,互聯網也算組織術行業,而工業自動化相對停滯。現在的數控機床、汽車生產流水線機器人等在80~90年代都已經有了。而且工業自動化的停滯程度比典型硬體行業還慢,其中可能有全球化外包發展之後廉價勞動力(尤其是中國)的競爭因素。

長遠看來,弱AI可能直接跟權力結合而升級為統治人類的超AI利維坦,不經過模擬人的強AI這個蜜汁步驟。維納在《控制論》原書里有一句話:靠人執行的國家機器也是機器。

AI甚至不用跟人類正面競爭,對比人類工業化到現在也沒拿合成食物淘汰動植物。


這兩年真沒什麼可以包裝的了。

不是說人工智慧有問題,

而是說我們現在吹大了騙投資的」人工智慧」有問題。

嚴格說來,絕大部分媒體和投資者,

連人工智慧和稍微複雜的腳本都無法區別。

甚至是央視上宣傳中國的時候,都還有一排小機器人練功夫來代表科技。


這都是些什麼鬼…

該死的還是會死去,

該前進的依然舉步維艱,

祝還在這個領域裡堅持自己理想的小夥伴們順利安好。


逐一正面回應。

很明顯的,以深度學習為主力的這一波人工智慧浪潮,從我高三吹到了我大四畢業。

ML領域為期四五年的浪潮真的不算很長。世紀初興起的 PGM 至今仍讓無數researcher 生命不息,畫圈不止。

很明顯深度學習不可能處理複雜的任務,

但是許多複雜的問題的解決是恰恰是通過子問題通過先驗知識組合得到的。

雖然號稱模擬大腦,但是幾乎與認知科學的研究隔絕。

請參考 Wikipedia 原文:

各大互聯網公司都爭先投入大量資源,連英偉達都加入戰團。

部分同意,Nvida的加入主要是覺得 CNN 是GPU運算的一個很好的應用場合。

我感覺深度學習致命一點是不能應用在太多普通用戶的產品上面,只適合搜索引擎和學術方面,現在主要的產品基本都是為搜索引擎服務的,普通的創業者根本沒機會玩,數據不如大公司多,普通用戶也沒有那個需求。

。。。不知道多少人會哭暈在廁所。LZ請到 CVPR/ ICCV/ SIGIR/MM 等conference的proceeding 里自行搜索 Deep Learning 有多少應用。

深度學習既不會像圖形操作界面或者互聯網那樣改變大部分人的生活,也不會像3D列印那樣有改變生產方式的趨勢,20年之內幾乎不會減少白領的工作量。

PHD一枚,不懂得「商業模式」,不評論。

看來深度學習很精巧,結果很漂亮,實際華而不實。

。。。結果漂亮,然後華而不實。LZ 確定自己沒有表述錯誤么?


並非全是泡沫。但去TM的深度學習!被過度吹捧了!深度學習應用範圍遠比想像的要狹窄,不是萬金油!很多人根本就沒搞清楚深度學習的技術邊界就把它當春藥。

以下是本文大致行文結構,方便你更好理解。

  1. 泡沫的擴散
  2. 被高估的深度學習
  3. 廣泛應用的阻力

一.泡沫的擴散

首先明確泡沫這個詞的定義。

泡沫:多數人過度的預期並因為這個過度的預期盲目跟風。

也就是說泡沫本質是認知偏差所造成的,泡沫的大小取決於這種認知偏差的深度和廣度
認知偏差:事物本來的特性和

泡沫的大小=認知偏差的廣度 + 認知偏差的深度
廣度:產生這種認知偏差的人群數量
深度:事物實際價值與想像中價值的差距

這種認知偏差的廣度和深度在2016年有了本質的提升,想必大家都會有明顯的感覺,人工智慧這個詞頻頻出現在生活中的種種地方,朋友圈、知乎、自媒體等等。

形成足夠廣度的原因

  • 廣泛的媒體參與

2016年互聯網模式潮水已褪,格局基本已定,再出獨角獸的可能忽略不計,資本圈的目光轉移,隨之轉移的還有科技媒體圈的目光。因為人工智慧的話題特殊性的原因,受眾廣泛,而注意力就是錢,所以其他領域媒體也開始慢慢參與。競爭慢慢激烈,為了獲取更多的注意力,開始誇大,越演越烈。

  • 大事件的傳播

AlaphaGo的那場比賽確實起到了至關重要的作用,不得不忽視,從人工智慧只是默默在為我們服務變成了大眾矚目的焦點,那幾天成了全世界的節日一般,廣泛參與,眾人皆知。科技圈內各大頂尖公司Google,Amazon,FB,IBM紛紛"高調"公開自己的AI戰略,這些導向標都說了,你還等啥?認知度的廣泛普及造成了一個後果,那就是相關創業公司更容易通過賣概念獲取投資,投資機構也一樣更容易找到下一個接盤俠。

形成足夠深度的原因

  • 人們需要新的希望和信念。這一點很少有人想到,但其實相當關鍵。當"互聯網+"慢慢被世界所驗證沒有什麼紅利後,並且其他行業趨勢也平平淡淡時,我們需要新的概念來讓我們繼續興奮,這個點其實是所有創業圈投資圈的自我暗示。有沒有感覺這和很多政治革命的故事類似,人們擁戴的不是某個人而是那個人給的希望,即使內心並不完全相信,當大部分人都開始有了希望和自我暗示的時候,就成了共同信念。

  • 公眾的識別能力與誇張的報道

人工智慧學科門檻是比較高的,對於大部分人來說,沒有相關的知識儲備,容易產生誤解。
媒體的各種誇張,創業公司的各種高調炒作往往加入各種複雜的專業名詞,其實很多名詞在十幾年前就有了,只是稍作修改換了個馬甲,就可以加入很多吹噓的成分而其他人認不出。什麼循環神經網路,卷積神經網路,對於大眾來說聽起來就是接近人類智能的名詞。過分的誇大來奪取眼球的事情更是層出不窮,一個累積了好幾年的突破硬是被說成是一次質的突破。

被高估的深度學習

在2016的認知偏差主要產生的地方其實就是深度學習,這個機器學習的分支被過分得高估了!

深度學習的幾個主要模型RNN循環神經網路主要用於語音識別和自然語言處理等,CNN卷積神經網路圖像識別為主,DBN深度信念網路做回歸分析為主,至於神經網路的各種變體,也都有著局限的領域,比如強化學習目前只能運用並長期只能運用於信息對稱的環境狀態下的學習。

深度學習最強大的應用就是語音和圖像這個就是事實,還有一些自然語言處理。其他的領域真的是沒有太大的突破性的進展。

所以當具體到各個領域的產業界,深度學習往往是在傳統機器學習無法更好的解決問題時,並且深度學習能有明顯的效果提升的時候才用的,而不是上來就用深度學習。深度學習往往做得是較為底層的東西。


先搞清楚深度學習這個東西目前存在的一些邊界。

  • 第一,可解釋性差,眾所周知的黑箱子,以至於優化調參看感覺,當然現在調參的方法論也越來越多和好用了,有些感覺好的人調得不錯還能發論文???,老子不管反正我精度更高,就是這麼奇妙!初始精度高,但提升的加速度低,當到了一個界限之後,你就慢慢調參和加機器加數據吧。

恰恰有時候相反,好的機器智能往往都基於對這個事情的理解深度,在大家演算法水平都差距不大的時候尤為明顯。

  • 第二,缺乏推理能力。正是深度學習技術缺乏表達因果關係的手段,相關性相對於因果性雖然有很多好處,尤其是在複雜環境中這個優勢明顯,因為因果關係太複雜以至於根本找不出來,但其實相關性也有致命缺點,就是無法根據邏輯進行多層次地推演,做不了深層的服務。這也是為什麼聊天機器人再怎麼研發也都只能做到幾輪對話的原因,基於概率預測,就算每次都是95%的正確率,幾輪後也不剩多少了。不僅僅是自然語言處理,其實還有很多東西只做到了解相關性不容易做成應用,因為服務層次做不深。

總的來說,那些結合了複雜推理和表示學習的系統將為人工智慧帶來巨大的進步。

  • 第三,對於數據量的大需求,深度學習對於數據量的需求遠遠大於普通的機器學習,你不是本身就擁有很多數據的話你就只能給別人提供api服務,這就是很多目前創業公司的困局,空有一身好演算法,而不是自己直接給用戶解決方案,這之間的區別就是付出回報比的差異。對於大多數有能力搞人工智慧的人
  • 第四,深度學習的強大在於非結構化大量數據的特徵提取,RBM,這種預訓練是無監督的,這也是為什麼人人都把深度學習當春藥原因,因為感覺所有數據都能產生不可思議的價值一樣,但實際上最終絕大部分能夠應用於實踐的深度學習方法都是使用純粹的有監督學習。

  • 第五,貌似很強大的遷移能力,利用深層提取的抽象特徵能使得後續類似的訓練僅僅需要很少的數據量就能,但實際上這種強大的遷移能力並非適用於所有領域,運用廣泛的也就是圖像和語音,其他的領域這種所謂的遷移能力的應用實踐起來遠比想像得要困難,很多時候連思路都沒有。

深度學習適合的更多是大互聯網公司,有足夠多數據的,做一些底層的東西

產業界難以應用人工智慧的原因:

  • 缺少懂兩方面邊界的人才

貌似看起來各個大公司都提供了硬軟體支持,硬(雲計算)軟(各類介面),但實際上真的要用到這些提供的東西的時候,你要是懂兩方面的人,不僅僅是機器學習,更要理解業務和用戶。兩方面的邊界都要理解。

現在最常見的狀況就是錢都投給了搞機器學習的人,深度學習的最多,畢竟是噱頭,就算不能賺到錢也好找接盤俠,呵呵,他們開發了一堆華而不實的東西,大多數都只能作為一個api去調用,根本搞不出一個完整的解決方案,而越底層偏離用戶就離錢越遠,這就造成東西都看起來神奇,就是沒幾個人願意為之付費,

而懂業務懂用戶的人,雖然知道什麼需求解決才能真正賺到錢,和為用戶提供足夠的價值。但是人工智慧的門檻其實是非常高的,不像互聯網浪潮那一波,請幾個程序員交流下,會畫個原型就行了,首先機器學習本來就不是一個容易的學科,對機器智能的理解力是需要時間沉澱的,因為人工智慧不只是演算法,要打通一套成為一個解決方案是還需要懂很多,比如數據收集的方式,用盡量低的成本收集數據又需要很多綜合的知識,有的是硬體,有的是web開發,有的是營銷。

  • 多數數據並非像想像那般有價值

數據維度,多不多是一方面的問題,數據能產生的價值,但實際上有價值的數據往往沒有那麼多,尤其具體到具體的業務的時候根本就沒有那麼多的價值,不是一堆數據就一定能產生價值的,這也是為什麼領英被天價收購的原因,按數據量來說領英遠不值那個價值,但重要的是他的數據非常都是非常準確而有用的,數據與數據之間有著緊密的聯繫(比如社交關係,公司關係等),有用的數據遠比一堆無用的數據好得多。

3.思維範式的轉移困難
相比上一次互聯網浪潮,互聯網商業模式並非難以理解,基本照葫蘆畫瓢就可以,但這一輪想要切換到通過數據產生智能在從用戶那裡獲取價值邏輯上是要複雜不少的,也沒辦法那麼簡單的照葫蘆畫瓢

應用人工智慧到底能產生多少價值?

這裡給出一套演算法

人工智慧應用的價值= 數據通過你的機器智能產生的價值 - 數據的成本

機器智能產生的價值= 在具體服務中對於用戶為此支付的成本
支付的成本=注意力+時間+錢

舉個例子,亞馬遜的推薦系統明顯就是讓用戶投注了更多的注意力和錢,這個機器智能的產生的價值就非常高。

你不是2C而是2B也是一樣的演算法,在你2b的企業方他給用戶的產品或服務因為你的東西用戶額外支付了多少錢或者注意力與時間。因為某個功能別人願意購買某個產品的幾率提升也算支付了更多的錢

數據的成本=收集成本+分析成本
收集成本——開源的基本在具體應用方向的都很少,一般要自己想辦法收集或者高價買;
分析成本——數據科學家有多貴,你可以去招聘網上去感受下

如上所說,懂用戶和業務的人是有能力想像出一套解決方案(服務或產品)使得產生的智能價值做得更高,但在數據的成本上會花費非常高,那最後真正的價值其實就是不高的。當最終價值不符合預期的時候真正去做的人就少了

最後,想說人工智慧目前還有些泡沫,但慢慢會冷靜下來,提前準備好加入這一場科技革命,而不是以為這就是泡沫就視而不見

歡迎關注我的專欄:技術的商業邊界
不定期更新


謝邀

泡沫的破滅是商業周期的變化,是人類金融社會機制的正常現象,但泡沫的出現與否都不能掩蓋機器智能快速發展的事實。因此,與其關注金融現象,不如多思考如何理解機器智能發展的規律,加以利用,把握先機。

人類對於機器智能的發展,有一個非常大的局限性,就是把人類的思考方式,作為衡量是否智能的標準,導致容易錯誤地估計機器智能的發展。我們總是認為,只有像人類一樣能夠流暢地對話和理解彼此,才是真正的智能。很多人喜歡吐槽聊天機器人(或者人工助理等等),經過這麼多年的發展,依然不能理解人類語言,只能用作無聊講笑話的小玩具,並因此否定機器智能的進步。然而,事實是,機器智能的進步,比如對語言的理解,是以另外一種方式飛速前進著。在搜索引擎、機器翻譯、推薦系統等各種應用中,都有體現。

如果不想錯誤地估計機器智能的發展,理解機器智能的進步,我們首先要理解人類與機器的不同。 人類智能與機器智能有很多不同之處,這裡只說一點:可複製性。

人類的教育理論發展了這麼多年,但是,面對不同的人,哪怕我們施展同樣的教學方法,有的人能舉一反三,靈活掌握,有的人卻是一團漿糊。但機器不同,機器智能的訓練方法是可複製的。用同樣的訓練方式,一定會得到一樣的訓練結果,這意味一旦訓練的方法有了突破,所有的機器智能都能更上一步。

不但訓練方法可以複製,訓練出來的模型同樣可以複製,並大規模的部署。當第一個車牌識別系統被開發出來,立馬全世界所有車牌識別的問題都可以解決。這一點人類同樣也做不到,拿翻譯這個任務來說,我們能做的只能是靠教育系統培養一代一代的學生,既不能保證數量,也不能保證質量。

這樣的可複製性還有一個優勢,就是可以讓機器自己與自己訓練提升,不必受制於人類的極限,這意味著只要任務明確,機器就一定會比人類做的好。AlphaGo 在早期靠的是學習人類的棋譜,而後期就開始與自己相互博弈,提升自己。

人類智能的進步依賴天才推進極限,以及良好的教育系統拉高平均值,倘若天才離世,我們會認為這一領域的研究可能倒退,如果戰亂導致教育系統停滯,我們會擔心下一代的發展。但機器智能的發展,因為這種可複製性,是漸進的,是被廣泛應用的,是永遠不會後退的,並且是普通人難以察覺的。

無人車的出現就是一種漸進的發展。幾十年前人類幻想,有一天車會自己開動,能帶我們去任何我們想去的地方,這無異於痴人說夢。但幾十年的漸進式的發展,我們有了電動助力轉向,有了定速巡航,有了盲點提示,有了自動變道,再加上電子地圖的發展,以及圖像識別的突飛猛進,無人車的出現一下子變得近在咫尺。機器智能的每一個進步都是微小的,但是組合起來就能最終成為我們期待的智能系統。

無人車的出現會大規模替代司機,而這個模式是一個可以被借鑒的模式。如果我們要創立一個智能系統來替代律師或者醫生,我們首先要花費數年為律師和醫生打造各類任務明確的智能系統,在不斷地服務醫生的過程中積累數據,理解醫療過程,最終掌握醫療能力,完成終極系統的搭建。與無人車一樣,一定是有無數小的部件需要開發,數據需要積累,在漸進的過程中達到最後系統的搭建。

機器智能的發展不是一蹴而就,立刻成形。如果對於機器智能的理解容易有誤,往往也會導致商業模式有誤,我在這個答案中也提到,能夠真正掌握演算法,並且能應用到真實商業環境的人,才是市場最需求的人:2016~20 年矽谷需求量最大的是什麼方向的技術人才?

最後,說到大家愛吐槽的聊天機器人,認為機器在理解人類語言上沒有進步,這是錯誤的。Google 的搜索、翻譯,Facebook 的信息流,Amazon 的推薦系統,都是建立在大規模的語言理解上的。這些公司能夠在每個人身上賺錢越來越多,是因為對於大家的行為和語言理解的越來越準確,但是這種準確是在大規模系統的度量上,不是像人類的對於每個句子精確含義的理解上,這也是機器智能與人類智能的不同,有機會再細說。

話說回來,倘若有一天機器能夠完全理解你的語言,這意味著機器可以同時理解世界上所有人的語言,所有種類的語言,甚至人類從發明語言開始橫跨幾千年的語言。我們在機器面前無法躲藏,所有的語言都會被理解的通通透透。

這樣的世界會發生什麼呢?我們真的期待這一天早些到來嗎?

----

@陳然


數據用完然後破滅……

目前的人工智慧仍然不能創造新的學習數據,這一波紅利的主要原因是之前互聯網時代積累的大數據到了一個臨界點可以足夠做出比較好的學習結果,而計算機的運算能力過剩正好可以用來計算,最後是Google和雲計算公司以及業界積累了大量的分散式集群運算的經驗,才帶來了這一次人工智慧的井噴式發展。但是目前數據仍然是燃料,如果數據用完了,那麼人工智慧的發展必然會放緩甚至停滯。其實很多人工智慧的理論並不新鮮,之前做不出這樣的效果最要命的就是數據不夠……


總結:非結構化數據跟不上,當前的api是基於長久以來結構化方式發展和積累的,導致供給跟不上,即最終的商業價值無法規模化的體現。同時,在開放結果的應用當中(圍棋,星際都是封閉結果:贏or輸;餐廳推薦就沒有絕對的結果),是沒有足夠多的有效數據可以用當前主流的網路的跑出有效的模型。

當大量應用驗證了有效領域的範圍的時候,如果範圍不夠覆蓋大量商業場景,那麼前面的積累就在商業上無效,就不會繼續獲得資金的支持,即泡沫破滅。

用之前寫的文章《為什麼現在的人工智慧助理都像人工智障》為例,以人工智慧助理為來闡述當前對話式人工智慧的不可行。

"我不是針對誰,只是在座現在所有做C端智能助理的都是坑。"

對群嘲做個限定:

  1. 現在:在"API困境"被解決之前(後詳)。
  1. 人工智慧助理:這裡指的是Intelligent personal assistant/agent (IPA) 又稱為Virtual Personal Assistant/Agent(VPA)——幫助個人完成多項任務或多項服務的虛擬助理,當前討論的核心驅動力是人工智慧。(什麼你說用人來做處理單元?那是呼叫中心,也叫客服,最看不起掛羊頭賣狗肉的了。)
  1. 在座:不止是創業公司,大公司也搞不定,國內國外無所謂。
  1. 都是坑:創業公司做消費端的虛擬助理,一定無法實現消費級產品效果。對於巨頭也是,我相信大部分的相關負責人都以「進步」為目標,而不敢跟自家CEO擔保要以「搞定」為目標。

什麼是智能助理?

  • 智能助理屬於對話式服務

兩者的邊界不是很清晰,智能助理的功能在前面解釋過了;而「對話式服務(conversational service/commerce)」——這是包含智能助理在內的多個產品形態的統稱,核心特點是:

    • 對話式:人機交互的方式由圖形化交互(GUI-Graphical User Interface)變為以對話作為交互方式(CUI-Conversational User Interface 業界暫時還沒有定義,這是我自己瞎編的),就是用說話來代替觸摸或者滑鼠,操作計算設備。
    • 服務:提供服務,解決問題都算,如訂機票,購買禮物等。不包括信息查詢(如天氣)。

Facebook M, 真人和AI結合的服務

去年(2015)起來的這一波對話式服務在矽谷有多火?看看創業團隊增長的數量就知道了:2015年的時候有129個類似的項目出現,而14年的時候才42個。

Tracxn Report:Conversational Commerce

在各類科技博客上,對Conversational Commerce的討論也非常熱烈,尤其是在medium.com上有大量的探討。基本的觀點就是」對話式的交互將會成為下一個風口,大家趕緊上啊!「。截止到2016年6月的時候,在Producthunt上標記為對話式服務(ConvComm)的有一百多個創業項目。

除了智能助理以外,還有很多類似的概念如digital agent,bot,service bot, chatbot,P2P的電商。比如Operator現在用真人專家幫用戶做消費決策,在過去嘗試過用bot/AI但可惜達不到效果,或者magic模式,完全是靠」真人幫懶人用APP「驅動運營。本文主要討論的是基於人工智慧的智能助理——就像IBM提到的一樣,只有如此才能真正規模化。

  • 智能助理應該解決服務需求

巨頭的人工智慧助理基本都已亮相了:

    • Facebook M
    • Amazon Echo
    • Google Assistant, Allo
    • Apple Siri
    • IBM Watson
    • Microsoft Cortana

以上智能助理的服務範圍大都是在信息檢索,幫助用戶獲得資訊。絕大多數的內容是不牽涉「推理」的查詢類信息服務。比如:1)明天的天氣如何?

2)找附近的星巴克在哪兒?

3)蘋果的股價如何?

如果用戶問到在基礎信息以上,一旦牽涉推理的問題,就無能為力了。比如:

1)明天這個天氣狀況會會造成航班延誤么?

2)我只有支付寶,附近的星巴克可以用么?

3)我什麼時候該買蘋果的股票?

使用體驗方面,這些助理的服務範圍覆蓋面基本跟當前的所有引擎一樣。在設計邏輯上,基本都是基於用命名實體識別來代替打字輸入關鍵詞然後返回檢索結果SERP。而信息檢索,離人們要完成的服務需求有很大的區別。就好像viv.ai的聯合創始人Dag Kittlaus 說的,當初他創建siri的時候,是想要重新挑戰移動服務,而不是造一個chatbot。

Dag Kittlaus 中間

除此以外,巨頭的助理與其關聯的生態產生操作的關聯。比如SIRI對iOS和macOS的操作;Cortana對windows的操作;echo對關聯著的智能家居設備的操作等等。此類操作的一個特點,是對結果非常的確定,出現個性化選擇範圍非常的少。

另一方面,對於創業項目而言,因為不具備類似的生態和硬體入口的條件,大都定位在資訊和服務上。我們選擇Producthunt當中排在最前150位的項目進行分析,其中高達70%的項目定位都在2C的個人助理(agent)上,其中大部分都想做切入服務,包括垂直類的和多任務的。

這些助理服務當中有23.1%是專業類型的服務,主要是在醫療和理財方面。而剩下來的76.9%的助理乾的最多的活兒是生活上的綜合幫助,出行安排,日程管理,購物訂餐廳等等——這一類是坑最大的地方——特別是那些試圖把生活上的各種服務都打包進去的產品。

Producthunt上面69.7%的對話式服務都是智能助理產品(但並非所有都具備AI)

人工智慧助理的潛力

  • 移動紅利的結束,行業需要新的增長點

很多跡象都指向同一個結論:移動互聯的高速增長已經飽和。比如用戶已經不再願意下載新的APP。

qz (based on comscore data) statista

2016年1月有超過5萬個新的APP被提交到了appstore,但是在美國市場有65%的智能手機用戶在一個月內下載新APP的數量為0,下了1個新APP的人佔8.4%。

2015年中到現在,在國內2C市場中,幾乎找不到一款真正能爆發並留存的移動產品。對於移動開發者而言,能放首屏的高頻應用早就擠不進去了。而且很多中低頻的服務,並不是最適合用app來承載的。比如訂生日蛋糕,作為商業其價值一直存在,能通過信息化的方式來解決獲客或者能效問題么?宏觀來講肯定可以,但是開發一個APP則會面臨用戶獲取和使用成本高,難留存,用戶難發現等等障礙——這些問題,都讓開發者懷疑要不要做APP,特別是在最開始的PMF核心邏輯還沒有被驗證的時候。

但創業者的熱情和投資人基金里的錢都不能等!於是大家憋著這口氣四處找風口,或者又有怎樣的產品形態可以把商業形態再顛覆一次,好比APP顛覆了網頁,宏觀上有沒有新的產品形態可以再來一次?甚至運氣更好點,甚至開拓出以前沒有被耕耘過的維度?

  • 對話式服務具備新的增長點的潛質

回顧過去,最大的幾次浪潮基本都伴隨著一個規律:核心技術(軟硬一堆)的出現和整合,帶來全新的人機交互方式 ,在此基礎上大量的商業應用應運而生。

從90年代,人機交互的三種變化

比如2007年末移動互聯開始,核心驅動的硬體是觸摸技術、各種sensor的成熟以及整體計算能力的提升和小型化;軟體方面則是iOSAndroid的顛覆式出現。軟硬結合創造出完全顛覆過去的觸摸操作的體驗,並使其稱為真正可用的人機交互方式——讓圖形化界面的輸入工具,從鍵鼠時代跨越到了更intuitive的觸摸,並完美的與後面開放的生態系統結合起來(不得不再次對喬大爺表示敬佩)。

  • 人機交互越來越傾向於人

可以看到隨著技術的平民化(democratization),人機交互正不可逆轉地向人的方向靠近——不需要學習的人機交互。

將來越來越多的人都能更自然的通過計算設備來獲得價值。下一個超級增長點的交互方式,一定是交互更接近人的自然行為,更多人可以使用的。

因為軟硬體限制,過去用上計算設備的人很少。一方面,當時的人機交互是讓人來「將就」機器——人學習機器的語言——操作需要專業技術,如打孔...(在個人電腦方面,當年知道"cd 文件夾名"的命令行的人也都是高端人士);另一方面計算設備巨貴,還不屬於個人設備,大眾都買不起;再者,日常應用和普通生產力應用幾乎沒有,所以買來設備學會了UI也沒啥用。而移動設備出現就讓更多的人從使用計算設備中獲利,更多不會鍵盤滑鼠的人,通過觸摸手機屏來操作。將來人們想要獲得服務的時候,或許不需要有「計算設備」這個中間載體的概念。直接提出需求,就能獲得結果。

  • 下一代的交互方式,似計算設備能覆蓋更廣的商業。

Google Assistant Allo

看看過去app如何顛覆web的,在沒有移動互聯之前,大眾點評只是一個不知道幾流的小眾產品,web也並非最合適這個商業模式的產品形態——比如大部分情況下,人們想要找餐廳的時候,身邊都沒有PC來獲得其他人的點評信息;而移動互聯的APP解決了這個問題。

這並不是說app代替了web(比如PS還是在桌面端更好用),而是藉由移動設備,app開啟了過去沒有的維度,繼而大眾點評的商業模式有了更合適的產品形態。我相信APP顛覆web的歷史,也會同樣發生在下一代人機交互的形態來顛覆當前app的時候。不僅很多商業模式和形態都可以被重新考慮一次,甚至幾乎可以肯定CUI會打開新的維度,解放更多的商業價值。

如果一個C端產品做得好,傳播不受硬體束縛,沒有用戶的使用成本的障礙,並且不需要下載新的APP,直接在熟悉的IM或者SNS里實現過去用app承載的服務,甚至還能開拓新的形態...比起當前的其他選擇AR/VR/IOT/區塊鏈,CUI帶來的想像空間更大。所以,就有很多人,巨頭小頭沒頭的都來嘗試。

對CUI的特點的理解決定產品價值

不可否認的,真正的CUI產品一定是基於人工智慧的自然語言處理的。如何深入利用CUI的特點,是產品打造的關鍵。

話說當前國內有很多投資人認為,只要是做人工智慧的團隊,就必須是MIT,Caltech出來的機器學習博士或者是GOOGLE,FACEBOOK的AI團隊的人;如果團隊不是頂級院校的學者或者是巨頭出來的項目帶頭人,就沒有什麼好搞的——這是典型的誤區,或者說對行業的理解太淺了。這種理解基本等於 「聽說你是計算機專業畢業的,幫我裝一下電腦吧」這樣的水平。很不幸國內好多年輕點的投資經理基本都是這種水平(為什麼年紀大點的不是?因為他們理解"不懂就不要輕易判斷"這樣的人生道理)。看不懂本質,就看表面,也是不得已。

這裡,我非常贊同順為資本的孟醒的幾個觀點:1)所謂「做AI的」也有幾個類型,底層研發和做應用的是兩碼事。2)人工智慧的底層交給大公司,小創業公司可以做點小模塊。而應用層則有大量的空間給創業公司來實現商業化。3)「這個行業缺AI的產品經理,不缺一般意義上的明星,特別牛x的演算法達人,牛x的北京的BAT出來的人。」 這方面吳恩達也有類似的觀點,「人工智慧社區是極其開放的,大多數頂級研究者會出版他們的著作/分享他們的想法身子開源代碼。因此,在這個技術開元環境下,數據和人才就是稀缺的資源。」

有點跑題了,在這裡就強調一下,CUI的核心技術是AI(不僅限NLP後面會提到)。對CUI作為新一代顛覆性人機交互的理解,才在產品形態上能發揮底層技術的商業價值。最後,再舉個例子,GUI的核心突破是技術大牛(xerox)帶領的,而其商業應用的發揚光大則是產品經理喬布斯從xerox那兒「偷來」的。

1973年,xerox推出第一款GUI技術個人電腦;在1983年,蘋果也推出了他們首款GUI電腦 Lisa(喬老爺「 完美借鑒 」)

年輕人不懂就要多看書。

  • CUI的不可延續GUI的特點

為了深入理解這個問題,我們可能要先分析一下,CUI和GUI究竟給用戶體驗帶來什麼影響?因為這絕不是現在主流的「把按鈕變成語言操控」那麼簡單的事情。

當移動設備出現的時候,大家對如何在智能手機上開發產品還沒有來得及有深入的了解。所以當時開發者基本都是從最明顯的地方起步,也就是觸摸代替鍵鼠操作。早期的大量應用,都是從「如何把web縮小到手機屏幕」的思路出發來設計APP的。——這是典型的延續上一代交互的思路。

隨著開發者不斷思考和挖掘移動端的潛力,慢慢有了對移動端真正的核心特質的理解——這些「聖杯屬性」才是真正讓移動端產品設計出眾的要素。比如「碎片時間」、「個人身份綁定「、」LBS」等等,這些特質才是真正讓移動產品體現價值的——這些是完全顛覆上一代交互的屬性。而且我們發現這些屬性幾乎跟「觸摸」這個明顯的交互行為沒有直接關係。

現在CUI出現的時候,產品經理也會面臨類似的問題。當前大多數智能助理的設計思路都是「過去APP是怎麼用的,我現在用語言來代替觸摸操作」。好比是用語言來代替手指去觸摸屏幕,或者是用說話來代替手指打字。而能讓用戶感覺真正智能的核心,我認為依然藏在CUI的「聖杯屬性」里,有待大家發掘。

  • CUI的特點:高度個性化

舉一個例子,根據實際研發和市場運作的經驗,我們發現有一個算得上「聖杯屬性」是特質是:「高度個性化」。

在GUI時代,用戶使用產品時,有一個可視化的界面,比如找餐廳,我們打開點評看上去是這樣:

這看上去是一個大家非常熟悉的界面,只是所有用戶能做的選擇範圍,都明確的顯示在界面上(所見即所選)。找美食,用戶能做的選擇基本就是:附近,類型,智能排序(不點開可能還不知道是什麼意思)以及排序。當用戶自己不知道該如何決策的時候,這些視覺化的框架,給了用戶提示該從這些方面根據自己的需求來做篩選和匹配。

但是在智能助理的界面,用戶看到的是這樣的:

用戶對可以做哪些選擇一無所知——在沒有可視化的參考下,面對如此開放的交互,當用戶要找一個餐廳的時候,他們提出的要求,大都不在GUI設定的範圍以內。

根據我們實際操作的經驗,用戶提出的問題是這樣的:

只有「在外灘附近的」是之前GUI的查詢範圍當中的,其他的需求都是過去GUI的類型當中不存在的維度。但因為CUI的開放性,用戶很容易給出上面這樣的高度個性化(非結構化)的需求。

如果GUI的產品試圖在個性化同樣給用戶那麼多選擇,就不得不面臨用戶使用成本的問題。一個界面可能會被大量的下拉列表,層級關係,各種填空和操作充滿。如此是加深了個性化程度了,但是操作的成本會讓用戶放棄使用。

如果在智能助理的產品設計上,不尊重用戶「高度個性化」的需求,只提供過去APP本身提供的個性化程度「在XX附近找個YY菜」,那麼用戶在實際提需求的時候得靠運氣撞到既定的條件上,不然就是無法識別的範圍,繼而失望。另一方面,如果CUI只是在做GUI範圍內的事情,會遠不足以顛覆APP。

除此之外,CUI還有一些專屬的特點。比如:

  • 使用流程非線性:比如GUI是線性的流程,界面引導用戶一步一步走到結果;而CUI則可以是完全無視先後順序的,用戶可以再最開始就提出本來到排在最後的條件當中。
  • 可避免信息過載:用戶打開GUI的一個界面,比如點評上找一個餐廳,用戶得在一個列表裡去找尋自己最想要的選項(典型的案例是,GUI讓用戶選擇國家的時候那一長排的列表)。而CUI則可以規避用戶的信息過載,直接給出期望的結果。這個特點的另一面是,GUI因此是informative的,給不熟悉場景的用戶更多的提示,或者比較結果的機會。
  • 複合動作:「明天或後天,晚上最便宜的機票」——從用戶的操作和實際體驗來看,GUI無法一次給出結果,只能用戶先查一次明天的機票,再查一次後天的機票,然後手動來對比。CUI完勝——可以直接給出相關條件的檢索結果,前提是AI足夠優秀。

這裡只是拋磚引玉,詳細更多特質會不斷被開發者發掘出來。在這裡就不詳細展開了。在另一篇《人工智慧時代的產品經理》文章當中,會做更多關於CUI的分析。

什麼樣的AI Agent能滿足C端的需求?

為什麼現在的助理產品都是坑?很多團隊不是底層的演算法差,而是團隊對產品的理解有問題。

要滿足C端用戶的需求,確實非常難。10次使用,有一次因為任意原因的失望,用戶心理就會開始有疑慮。從體驗上來看,在用戶熟悉的場景下得全面理解用戶提出的需求;在用戶自身不清楚場景下,得自然的協助用戶挖掘需求;獲得需求後得幫助用戶做決策,並最終呈現結果。以此來看,對話式的agent就得至少滿足以下功能:

  • 具備基於上下文的對話能力 (contextual conversation)
  • 具備理解口語中的邏輯 (logic understanding)
  • 所有能理解的需求,都要有能力履行(full-fulfillment)
  1. 基於上下文的對話能力(contextual conversation)

在當前,做助理的產品的底層技術基本都是圍繞NLU(自然語言理解)打造的,很多還沒有涉及到NLP。可是無論是大公司還是小公司的NLU都是讓人失望的。舉個簡單的例子,在大公司的幾個產品上提出需求:我下周五要去北京,幫我查一下航班。

需要識別意圖:查機票

需要識別entities:時間(下周五),目的地(北京),出發地(無/當前地理位置)

我們看看結果,首先看三家的回復,從左到右分別是蘋果的SIRI, 微軟的CORTANA, Google的ALLO。

沒有一個能識別出來意圖,全部做為用關鍵詞來檢索網頁(SERP)。沒有識別出意圖,繼而也就沒有可能識別entity所在的場景。對於C端用戶而言,這可能算是最基礎的服務之一,而三大巨頭提供的產品完全不能用。

不過當我們看到國內的創業公司,卻能按照需求識別出意圖,並且識別出對應的entity,組合查詢出結果,看上去比幾個巨頭更強大。

我們繼續測試上下文的對話。比如,我是國航的會員,agent給出上面的結果里沒有國航的航班,我自然會問:」有沒有國航的?「

結果並沒有如期望那樣,在給出的列表裡找到國航的航班。而是開始了重新的一次查詢。

換一句話來說,沒有結合上下文的對話。我並不是為了黑,事實上這個產品在國內的創業公司中也算不錯的技術了。但是不會結合上下文的對話,會造成的最嚴重的問題就是這個agent基本不能獨立完成服務。因為用戶不會在一個句子里把所有的條件都列出來。

以上是基本要素,就當前的產品形態來看,只有非常少的產品能真正做到第一點。大部分號稱能做到的,都是濫竽充數,連續問問題而已。

不能真正理解上下文的對話(機票查詢):

    • AGENT: 從哪裡出發?
    • 用戶:上海虹橋機場
    • AGENT:到哪裡?
    • 用戶:還是從浦東走吧
    • AGENT:好的,從虹橋出發到浦東的航班是......

在上面的對話,AI Agent在問第二個問題的時候,不能理解用戶對前一個回答的修改(出發地從「虹橋」改為「浦東」),只是按照預先設計對話的順序,填上命名實體識別得來的entity。繼而查詢不到結果,給用戶的感覺就是笨。

真正理解上下文的對話(機票查詢):

    • AGENT:從哪裡出發?
    • 用戶:上海虹橋機場
    • AGENT:到哪裡?
    • 用戶:算了,從浦東走吧
    • AGENT:好的,出發改為浦東。那到達城市呢?
    • 用戶:北京
    • AGENT:好的,從浦東到北京的航班是...(給出正確的結果)

而具備真正上下文理解的對話,agent可以正確理解用戶第二個回答的內容(從浦東走),其實是在修改上一問題的回答(出發機場),而不是真的在回答第二個問題(到達地在哪裡)。

這只是上下文的例子,而對於服務類agent而言,所有後續的NLP功能都基於上下文對話為前提。這些看上去其實都是非常簡單的需求,但是當前沒有任何一個2C的agent可以做到。

可能有人會問,大部分用戶都應該在第一時間把需求表達出來吧,為什麼還需要對話?實際上,真正操作過大量案例的同學就會發現,用戶不可能如此」貼心「地按照開發者的設計來提出需求。

」 幫我看看下個星期五去北京,下午3點多,從虹橋出發,國航的航班。「——這一類的表達方式在幾乎從來沒有出現過。哪怕是在用戶最熟悉的場景,也很難確保一個句子的表達里包含了所有必須的檢索條件。而且,用戶還會不停的補充更多的個性化需求。

對於用戶自己比較了解的場景,如:訂機票需要提供到達地,用戶提出的大多數需求,在最初都是非常簡單,然後逐漸開始細化的。所以需要當用戶提出不完整需求的時候,根據其意圖,結合之前已經給過的條件,通過對話,向用戶提出問題,再獲得答案來補全剩下還需要的條件,最後再完成服務。

對於用戶自己不熟悉的場景,用戶根本就不知道自己該提出哪些方面的需求。如:不懂酒的用戶,想買一瓶合適的威士忌。他就根本很難提出除了價格以外的需求,比如產地,年份,釀造原料,水源等等。因此,Agent得以合適的方式來提問,引導用戶給出偏好,並且用對話提出推薦。

而且對於agent而言,很難判斷哪些用戶對服務的認知有多深。如果不做識別,就容易問」老手「一些」新手問題「,繼而讓老手覺得我還不如自己下單;而給新手又留下」你在說什麼我都不懂「的印象,也是不聰明。

所以要有好的體驗,這是非常困難的。而基於上下文的對話,只是最基礎的用戶需求之一。

2.理解口語中的邏輯 (logic understanding)

在我們的實踐中,我們發現對」邏輯「的理解直觀重要。原因也是因為用戶的正常對話,大部分都不是開發者預設那樣的。

再做一個簡單的測試,比如找餐廳,試試:幫我推薦一個附近的餐廳,不要日本菜。

這是一個簡單邏輯,但是你看所有的服務,這次包括剛剛那個國內創業公司C一樣,都會是一個結果:全部推薦日本菜。

也讓朋友測試了亞馬遜echo的alexa,結果也無法識別」不要「這個最簡單的邏輯

這次其實比剛剛好多了,至少4家裡面除了google allo,都識別出來我的意圖是找餐廳——但是,當我明確提出不要日本菜的時候,給出結果的三家全部都是日本菜......也就是說「不要」 兩個字被完全忽略了。

觀察大量的用戶案例表明,當用戶越是個性化需求強烈的時候,對話中出現邏輯和指代關係的頻次越高。

「有沒有更便宜的?」

「除了大床房以外的房間有么?」

「後天會比今天更冷么?」

「就要剛剛的那個2千多的吧。」

「除了廉價航空,其他的航班都可以。」

以上這些需求是提需求的時候,在對話中經常出現的表達方式,而且看似簡單,但是目前沒有任何一個NLU的系統或產品能夠正確的理解。主要的阻礙就是對邏輯的理解,還有在基於上下文對話中的指代關係的理解失敗。

3. NLP不是全部,還要有能力履行(API困境)

NLU並不是智能助理髮展的瓶頸,供給端的數據才是。

我們假設如果有一個黑科技出現,使得NLP有了極大的進步,以至於兩個條件:1)基於上下文場景的對話;2)口語邏輯,都能被理解了,甚至還能基於場景和上下文用NLG來生成各類問題——它能理解我們所有講出來的需求。

在用戶熟悉的範圍內,它能結合所有的過去的對話,歷史記錄等等內部外部條件,幫助用戶儘可能的實現「不用開口,就知道我在這個的需求」。比如當用戶提出「推薦餐廳的需求」:

用戶:「女朋友周日過生日,推薦一個餐廳,找有江景的,最好桌子旁邊有一個大落地窗戶,能看到外面的夜景。吃的不要太貴,環境好點,有現場音樂的最好是爵士,不要太吵的。」 (btw,這是一個真實需求)

Agent:「菜系有偏好么?」

用戶:「義大利餐和法餐都可以,對了不要離外灘太遠了」

agent解析出以下選擇餐廳的條件:

  1. 周日晚(營業)
  1. 適合女朋友過生日
  1. 有江景
  1. 有大落地窗
  1. 不要太貴
  1. 環境好
  1. 有現場音樂,爵士
  1. 不能太吵
  1. 義大利餐或者法餐
  1. 距離外灘不能太遠

然後它去哪裡找到這樣的餐廳呢?在地圖服務提供商,或者點評的API提供的信息里只有8,9,兩項能找到數據。假設評論中有這樣的數據,該用什麼方式來傳遞呢?介面提供的都是結構化的數據,而「環境好」這樣的非結構化數據,最多以標籤的方式來做,但是這樣的話,標籤就會有無止境的多也不現實。

這就是我們所謂的「API困境」——當前基於API的數據傳遞方式,只能1)承載結構化數據;2)承載數量非常有限的結構化數據。

當前基於GUI的產品,都是用API來傳遞結構化數據。但大量個性化數據往往是非結構化的,以當前API的方式很難被處理。這還是在使用場景或者服務比較簡單的情況下。

在用戶不熟悉的場景下,agent面對稍微專業一點的服務,就會遇到知識圖譜的問題。簡單來講,agent要做推薦的前提是對推薦的內容得先有了解。好比,要向一位不懂酒的用戶推薦一款威士忌,那就不能依賴這位用戶自己提出的問題(很可能提不出要求),而得依賴「懂行」的自己對威士忌的理解的方方面面來引導用戶做合適他的選擇。一個助理顯然無法擁有所有服務所需的知識圖譜。

從知識圖譜的結構來看,是相對可被結構化。一個服務可以以各種方式被拆解成很多個方面,但大量的方面在當前是沒有結構化數據的(比如我們沒有每家餐廳的」營業面積「的數據);甚至很多方面無法用結構化數據來表達(比如每家餐廳有否」適合浪漫約會「的環境)。

因此,智能助理就算有了強大的NLP,還需要全面的知識圖譜(結構化數據)和處理並傳遞非結構化數據的能力——而這兩點,在目前是無解的。

總結

在"API困境"解決之前,再加上NLP本身還有很長的路要走,基於人工智慧的多任務服務agent不大可能達到C端滿意的水平。

創業團隊各自最基礎的認知計算的能力不會有太大的區別,都是踩在世界頂尖大牛的肩膀上——在這個領域創業團隊想和大公司鋼正面,不是很理性。

創業團隊在垂直領域有些自己的技術突破可以創造一些階段性的優勢,但面對教育市場的大山而言,這點差異遠不足以make a difference。

在各自領域,開發者對人工智慧相關技術的理解和其帶來的交互層面的有效應用,可能會在垂直商業應用上創造更大的差異——比較起」95% VS 98%的識別率「 而言。


嗯,這道題是為了證明一下我有科學素養的)


在回答這個問題之前,首先要講個故事。

今年春節的時候,我去探望我的爺爺,一個八十五歲的老人。談話的間隙,我很自然地掏出手機看了兩眼,這個舉動引起了老人家的疑問。於是,他掏出自己的老人機跟我分享自己的人生經驗:

「我不太理解啊,現在你們年輕人有事沒事就抱著手機,這個手機有那麼好玩嗎?你看我也有手機,不就是用來打個電話嗎?「

「現在的手機可不是光打電話這麼簡單,幾乎什麼都能做了……這樣,我給您展示一下,「我長按home鍵把手機遞到他面前,」您對著它說句話試試。「

老人家一臉疑惑地對著手機說了一句,」說什麼?「

手機里傳出了Siri的聲音:「你剛才說什麼了?」

曾經走南闖北見遍世面的爺爺,一瞬間滿臉大寫的震驚:」它能聽懂我說的話?手機怎麼跟人一樣聰明了?現在的科技進步太快了……「


可能在各位看來,Siri實在算不上多出彩:聽力十分差勁,經常錯誤識別;智力約等於低能兒,動不動就告訴你「哦「、」對不起,我沒聽懂「。但是,在一位八十五歲的老人眼中,它簡直不可思議,」跟人一樣聰明「。然而在你的眼中,Siri和人工智慧,中間隔著十萬八千里,「不能應用在太多普通用戶的產品上面。」

「人工智慧之父」約翰·麥卡錫曾經對此有過一句精闢的評論:「一旦一樣東西用人工智慧實現了,人們就不再叫他人工智慧了。」沒錯,人工智慧早已經進入了你的生活,只是你並不認為它智能。

換成中國式的表達,叫做「不識廬山真面目,只緣身在此山中。」

關於人工智慧,很多人的理解是這樣的:它和一個活生生的人別無二致,有對世界基礎的認知,在各方面都能和人腦一樣進行複雜的思考決策。具體一點說,應該類似於鋼鐵俠的管家賈維斯、美國隊長中的九頭蛇。稍微出個腦筋急轉彎就一臉蒙蔽的,相比之下就是辣雞。然而,這是一個完全錯誤的概念。

以上描述的和人腦幾乎完全相同的「真正的智能」稱為「強人工智慧」,目前的科技還無法還無法達到這樣的水平,目前更多的研究集中於」弱人工智慧「方面,並且一直在進步:如今常見的語音識別和識圖功能,都是人工智慧的成果,即使僅僅是在某一方面有限度地模擬了人腦的機制。

現在你還覺得,人工智慧離你非常遙遠嗎?

但是,雖然在「弱人工智慧「方面的進展十分明顯,我們也不得不承認目前的成果還是有很多不盡如人意的地方,最簡單的例子,Siri這樣的人工智慧,你一定會覺得它是個徹頭徹尾的弱智。因此,雖然強人工智慧目前仍然不可企及,但在弱人工智慧方面,可以做的事情還有很多,前景還十分廣泛。
這也是資本樂於進入人工智慧領域的原因:遠到Google斥巨資開發AlphaGo,近到StarVC投資國內人工智慧領域首屈一指的商湯科技,都是因為看到了人工智慧巨大的發展空間。AlphaGo只會下圍棋,在其他方面毫無能力,商湯科技最突出的成果是人臉識別,從廣度上講,他們連一個五歲小孩的認知水平都達不到。但是,下圍棋下到擊敗世界冠軍,人臉識別擁有90%的正確率,你說,這是不是已經讓人足夠驚嘆了?潛力是不是非常巨大?

「模擬大腦」並未出現,所以資本的進入是盲目的行為嗎?事實上,」模擬大腦「只是媒體炒出來的一個觀點,科技界從未有任何一家公司這樣說過。他們都很清楚,完全模擬人腦尚不能達到,但是,在模擬人腦的運作機制在某方面達到專精,是完全有可能實現的。

市場的發展空間尚且如此巨大,又何來「泡沫」一說?資本並不像你想像的那麼愚蠢。

如果真的要說存在泡沫的話,我們不妨做這樣一個比喻:一條滾滾東流的大河,在涌動的波濤間,你依稀看到了一些水泡。但即使有泡沫,它和一潭死水上出現的氣泡有著本質上的區別,在未來,它依然會洶湧地不斷向前,不斷激起新的,令人驚嘆的浪花。


那麼,現在你認為,這一波人工智慧泡沫將會怎麼破滅呢?


這種問題都有這麼多人認真的回答,我也是醉了。

提問者剛剛大四,不是投資圈人士,也不了解深度學習,就在這裡下一些很荒謬的結論。比如這個問題就已經假定了這次人工智慧熱潮『肯定』是泡沫這個事實。這就好比在WG時,先給對面扣上一頂帽子,然後對方必須反駁,否則這頂帽子就坐實,絲毫不想想這頂帽子扣的基礎何在。

認真的問題沒人回答,而這種特意搞得像『大新聞』的問題讓這麼人認真的回答。知乎藥丸啊。


這也不算泡沫,因為他是不能自發爆炸的。我覺得這還得靠一個牛逼的人,搞出一個新演算法,來斷了所有調參數黨的後路。這個泡沫才會破。


你們不整天問,就算破滅了嘛,所以時間點掌握在你們手裡。
我們行業里的人,該幹嘛還幹嘛


在知乎問這個問題就等於在菜市場問賣家人類什麼時候可以不吃飯就能活一樣。


我目前從事機器人行業,用到DL的部分不要太多…語音識別,人臉識別,手勢識別,物體識別各種識別都可以上啊…slam和motion planning也可以和DL結合…

至於簡化白領工作,我太太在銀行工作,我拿python寫了個簡單的PCA小工具,她現在基本幹活都離不開…


DL或者更為廣義的ML本身是趨勢,你可以不理解,但是最起碼不要帶偏見


你們對著題主都沒有一個是對的前提炮了這麼久,果然是調參中途的怨念么?


美國創業公司研發部門招人,要求深度學習背景的不要太多。

深度學習的確在很多領域的很多benchmark上做到了提高。

深度學習的一大問題是解釋性太差。一般的模型是這樣子的:先給出假設,再根據假設建立模型,然後能指出失敗的例子為什麼失敗(不服從假設)。而大部分深度學習做不到這一點,雖然狂調一陣參數的確可能會在各種測試數據上有好的結果,但拿出失敗的例子,解釋不了為什麼失敗,給人一種隨機選出幾個失敗的感覺。

所以題主說「不會減少白領的工作量」是正確的,因為面向白領的應用是要強調解釋性的,總不能做個金融軟體隨機出錯,或者ps里隨機出現扯淡的結果。

但依然有很多領域只強調正確率,例如搜索,例如基於微博的熱點搜集。或者說,因為這一個提高識別正確率的強力工具,許多商業公司會考慮改變自己的產品框架,從而在某一個部分上只強調正確率。

=====================================================
補充一點,題主說

普通的創業者根本沒機會玩,數據不如大公司多

這句話是錯的,至少目前如此,因為Twitter在賣數據,數據量很大,而且不算很貴。這段時間我在找工作,不少startup公司是以基於Twitter數據的。


推薦閱讀:

新華 08 要突破彭博終端、路透的壟斷,要有什麼思路?
為什麼希臘和義大利的債務危機會爆發,而日本和美國卻沒有?
滙豐集團為何出售總部大樓然後又租回?
債券市場為什麼在 2012 如此火爆?
什麼是資產證券化?資產證券化的過程是怎麼樣的?

TAG:人工智慧 | 機器學習 | 金融 | 泡沫經濟 |