機器學習、深度學習等人工智慧技術在工業界的應用狀況是怎樣的?人力供需狀況如何?

李開復:我在矽谷看到了什麼?
在李開復的關於矽谷前沿科技的這篇文章里提到,深度學習的博士畢業生可以拿到200萬美金以上的年薪,很是厲害啊。
----
本題已收錄至知乎圓桌 ? 對弈人工智慧,更多關於李世石對戰人工智慧的解讀歡迎關注討論。


國內的情況不了解,本人在東京從事人工智慧的工作,日本這邊人工智慧技術應用於工業界的比較多,隨便舉幾個例子吧:

(1)代替肉眼檢查作業,實現製造檢查智能化和無人化
例如工程岩體的分類,目前主要是通過有經驗的工程師通過仔細鑑別來判斷,效率比較低,並且因人有不同的判斷偏差。通過採用人工智慧,把工程師的經驗轉化為深度學習演算法,判斷的淮確率和人工判斷相當。得到對應的權值後開發出APP,這樣現場工程人員在使用tablet拍照後,就可以通過APP自動得到工程岩體分類的結果,高效且淮確率高。

還有汽車零部件廠商,目前檢查生產出的零件磨損種類與等級情況時,多是有經驗的人工。同樣,通過採用深度學習演算法,可以把人工的檢測經驗轉化為演算法,從而實現無人化檢測。

(2)大幅改善工業機器人的作業性能,提升製造流程的自動化和無人化

例如bin picking機器人,工業上有許多需要分撿的作業,如上圖所示的零件分撿,採用人工的話,速度緩慢且成本高,而且還需要提供適宜的工作溫度環境(夏天的空調,冬天的暖氣等),如果採用工業機器人的話,可以大幅減低成本,提高速度。但是,一般需要分撿的零件是沒有整齊擺放的,機器人雖然有camera看到零件,但卻不知道如何把零件成功的撿起來。這種情況下,使用機器學習,先讓工業隨機的進行一次分撿動作,然後告訴它這次動作是成功分撿到零件還是抓空了,經過多次訓練之後,機器人會知道按照怎樣的順序來分撿,會有更高的成功率,如下圖。

(上面的圖片顯示,經過機器學習後,機器人知道了分撿時夾圓柱的哪個位置會有更高的撿起成功率)

(上面的圖片表明通過機器學習後,機器人知道按照按照怎樣的順序分撿,成功率會更高,圖中數字是分撿的先後次序)

(上面的圖片顯示,經過8個小時的學習後,機器人的分撿成功率可以達到90%,和熟練工人的水平相當)
(關於深度學習是如何判別抓取位置的,可以參考下面的回答:
人工智慧深度學習的演算法可以應用到工業的機械臂上嗎? - Tomi 的回答)

(3)工業機器人異常的提前檢知,從而有效避免機器故障帶來的損失和影響
這方面和IoT(Internet of Things)結合比較多。例如在製造流水線上,有大量的工業機器人。如果其中一個機器人出現了故障,當人感知到這個故障時,可能已經造成大量的不合格品,從而帶來不小的損失。如果能在故障發生以前就檢知的話,可以有效做出預防,減少損失。例如下圖的工業機器人減速機和主軸,如果給它們配上sensor,並提前採取它們正常/不正常工作時的波形,電流等信息,用於訓練機器學習系統,那麼訓練出來的模型就可以用來提前預警,實際的數據也表明人工智慧會比人更早地預知到故障,從而降低損失。

(上圖表明,經過機器學習後,模型通過觀測到的波形,可以檢知到人很難感知到的細微的變化,並在工業機器人徹底故障的之前的數星期,就提出有效預警)

(上圖是利用機器學習來提前預警主軸的故障,一般人都是主軸出現問題後才知道)

(4)例如工業上的3D模型設計完成後,需要根據3D模型中參數,尋找可對應的現實中的零件,用於製造實際的產品。使用機器學習來完成這個任務的話,可以快速,高匹配率的找出符合3D模型參數的那些現實零件。

(上圖是根據3D模型設計的參數,機器學習模型計算各個現實零件與這些參數的類似度,從而篩選出匹配的現實零件。沒有使用機器學習時,篩選的匹配率大概是68%,也就是說,找出的現實零件中有1/3不能滿足3D模型設計的參數,而使用機器學習後,匹配率達到了96%)

(5)PCB電路板的輔助設計
任何一塊印製板,都存在著與其他結構件配合裝配的問題,所以,印製板的外形和尺寸,必須以產品整機結構為依據,另外還需要考慮到生產工藝。層數方面,也需要根據電路性能要求,板尺寸和線路的密集程度而定。如果不是經驗豐富的技術人員,很難設計出合適的多層板。通過機器學習,可以將技術人員的經驗轉化為模型,從而提升PCB設計的效率與成功率。

除了以上的例子,機器學習在日本還有各種各樣的應用,如下圖中利用機器學習來進行糖尿病的診斷等,準確率很高。

總結一下,國內的話,人工智慧應用於互聯網的情況比較多,日本這邊的人工智慧技術更多是用來服務於製造業的。許多日本製造業公司正在通過人工智慧實現製造智能化、最大程度減少人力、提升製造品質。


工業領域的數字化程度越來越深,人工智慧技術也得以在工業界不斷地發展。但提到工業領域的人工智慧,人們的第一反應是機器人。但除此之外的應用還有很多,這裡就介紹比較主要的幾類:

第一類是比較簡單的應用:對於「數據的可視化分析」。讓我們可以理解數據所反映的設備運行狀態、能耗情況、生產力狀況等等情況。

第二類則是讓機器實現「自我診斷」。比如一條生產線突然發出故障報警,機器能夠自己進行診斷,找到哪裡產生了問題,原因是什麼,同時還能夠根據歷史維護的記錄或者維護標準,告訴我們如何解決故障,甚至讓機器自己解決問題、自我恢復。

當然,我們都不太希望發生故障,所以我們通過人工智慧技術可以實現第三類應用,「預測性維護」。要知道工業生產線或設備如果突然的宕機,那造成的損失是非常巨大的。所以我們通過人工智慧技術讓機器在出現問題之前就感知到或者分析出可能出現的問題。比如工廠中的數控機床在運行一段時間後刀具就需要更換,通過分析歷史的運營數據,機器可以提前知道刀具會損壞的時間,從而提前準備好更換的配件,並安排在最近的一次維護時更換刀具。

第四,提前「採取措施,優化運營」,比如節能。在工業領域,對生產線進行節能優化,通過對歷史運營數據、工廠排產情況,以及設備配置參數等等的分析,提前檢測出能耗的異常,並提供降低能耗的措施。

此外,在許多泛工業,像能源,工業,交通等領域,人工智慧技術都已經有了應用。總得來說,人工智慧在工業界的應用範圍和效果是絕對不輸於在互聯網上的應用。


簡單地說,是廣闊天地,大有作為。

@空白白白白 曾經提到過,其實也是我很認可的一個觀點:「務必要搞清楚:搞機器學習為公司帶來多大的價值,如何量化收益」

她其實是見到了很多隻談概念和高大上的公司。你說一個公司,用機器學習來預測自己的銷售額,這樣的事情有什麼實質意義呢?每天看看曲線起起落落有什麼意義呢?

我現在的團隊就是一個運用了很多機器學習技術的公司,也確實,收益就是應該被衡量的,也說說我最近的工作帶來的收益吧。

我司的背景是這樣的:通過機器學習手段收集和推薦電商商品。如果說今日頭條革掉了傳統新聞客戶端的命,那麼我們就(低調的)在革傳統電商的命

我處的團隊是數據收集流程,衡量標準是又快又好地從網路中收集出商品並評估質量。
我司的另一隻團隊是面向用戶的推薦系統,衡量標準是電商購買率

  1. 用機器學習方法算了一個準確率從99.9%下降到99.5%,但recall從25%上升到60%的參數。演算法本身其實沒啥特別的,但同時還從各種角度,工程的、演算法的,使得線上兩台用於圖片匹配的機器,從原來每台32核64G全部跑滿速度只有10張每秒(畢竟要求準確度很高而圖片集已經數十億),預計完成時間已經排到了一年後,優化到了現在CPU基本在放羊,速度三萬張每秒,兩天就能全部掃過一遍全量數據,並且準確度直接砍掉了人工審查的5個人的勞動力。此處衡量價值的話,一台高配機器1個月3000多,提高了3000倍的速度,這裡價值900萬(老闆你看到了嗎我竟然這麼有用了老臉一紅)。市場響應速度由根本沒法發布新品,到現在這樣的速度,不好衡量價值,就不算了。人工不貴也就一個尾數,就不算了
  2. 商品聚類的自動上架、自動修正。過去,聚類好的商品,由於標題、圖片都需要人工審核再上架,我們需要把標題修改為不那麼浮誇的直接命中重點的標題(因為現在的電商要做SEO,真是啥關鍵字都得寫上),圖片有水印的、沒重點、效果不好的都不能顯示在最終的商品里。還有有時候分類錯了需要分到正確的分類中,而人工審核的速度是十分有限的,一個人,每小時也就能處理三四十商品,一天三百款商品。一個月工資按處理數量和質量在數千不等(四千還是六千?)意味著我們聚類的上游每天生成的四萬個商品聚類,聚類中又若干圖片,需要僱傭一百多個員工來操作,一個月的工資也達到了數十萬。我們在標題生成、聚類圖片質量判定、選擇圖片 使用了機器學習,自動上架商品,一台機器就解決了,並且顯著的提供了低成本水平擴容的手段。
  3. 另一隻團隊做的工作,他們那邊做的是各種推薦和排序演算法,上一個被他們吹噓的優化是優化了一版排序,以前衡量的標準太注重點擊率,但結果是商品圖片很炫酷,然後用戶點進去一看價格太貴了就流失了。現在的衡量標準在電商轉化率上,使得電商最終購買率提高了20%左右?一天也就多賺個幾十萬吧。這也是我們這樣的APP和今日頭條類的內容APP衡量標準不同的地方

未來的工作,應該也會投入更多的技術在優化供應鏈和商品送達效率上

總的來說,現在的各行各業肯定是從結構化數據到非結構化數據都不會缺少金礦,就看團隊如何利用價值了。大部分結構化數據大致看一看規律,用幾個機器學習模型也就能達到一個很不錯的目標了(95%精度那樣),非結構化的圖片、文本、語音難很多,文本的話努力做一下也可以達到超越人類的效果。

我們的優勢也是早期用人力標註了很多數據集,用來後面的監督學習真是每時每刻都感覺自己在為公司創造價值。。

數據化的驅動也確實很重要,這個和機器學習中的流程其實是一樣的:定好目標、損失函數,然後一路優化,看如何達到目標函數,減少損失函數。

現在我倒是真正理解了目標函數。。。簡直就是人生、事業、公司每一個面都可以套上去。。簡直雞湯力爆表。。。

人才方面。。。只能說很缺乏很缺乏,我們的BOSS們都是斯坦福畢業的,CEO和國內外的各種工業界的連接也很緊密(還和一位耳熟能詳的大牛是親戚,這個八卦如果有人來面試我覺得可以當一張虎皮(逃)),和我們說其實國內的技術和工程做的都有很高的成長空間,按照他和各種大佬的說法,招人不如自己培養,一年才畢業多少大牛,完全不夠用。雖然我還是覺得大牛們都很厲害,並不知道為什麼他有這樣的底氣(撓頭)。。

打個小廣告吧:公司簡介在:這裡 機器學習主要開發語言還是Python,地點在杭州。我們既需要擁有豐富工程實踐的工程師,也同樣希望優秀的應屆生加入,但有一點是相同的:需要對機器學習和能做到的事情擁有良好的認知,以及對自己不懈的追求。內推簡歷可以發我 jianjiangzhu#epiclouds.net

願我們有一個更聰明的未來世界


目前來看像Data Scientist, Data Engineer這類人才還是稀缺的,Data Scientist的門檻有點高,比如一個企業想做個簡單的模型來預測產品的銷售額,然後就會發現沒人會做啊,要麼自己招一個Data Scientist,要麼找諮詢公司,都特么貴啊。你說這事也不難啊,演算法都是現成的,找個碼農自己干,但是你去網上搜一圈,發現至少有5個數學模型可以選,然後該選哪個模型,選什麼feature,怎麼評估調整,這些沒有專業訓練和積累是真心做不了的。

所以像我軟賣給客戶ML平台的時候,發現基本上客戶都是有做ML的良好願望但是沒什麼人真正懂得怎麼做,所以只能帶著一群人幫他們搭出一個原型再賣產品。

牛B的公司自然是自己搞全套的,但這些公司只是少數巨頭。大部分企業,特別是非IT行業,是自己搞不了的,沒有人才,就算有平台工具也搞不了。這是現狀。

以後怎麼樣呢,很難說。我所想像的一個版本是很多常用的ML場景會被逐漸產品化,比如常見的銷售預測啊,客戶留存預測啊,客戶群體劃分啊,產品推薦啊,等等。什麼叫產品化呢?就是說到時候這個企業不需要自己再找個data scientist來建一個模型,它買的ML平台產品裡面就已經預裝了專門做這類場景的模塊,非ML專業人士可以通過簡單的調整就能整出個相對靠譜的模型出來。而整個數據管道的建立和運維也會變得非常簡單,不再需要專業的data engineer來搭建,或者說data engineer的門檻會變得較低。

另外像有些場景完全可以提供現成的訓練好的模型給客戶直接使用,比如人臉識別這類通用模型,Project Oxford就已經是這麼做的了。客戶想做人臉識別不用自己訓練模型,直接調用api就行,這樣就只需要碼農了。

高門檻技術逐漸平民化是普遍趨勢,想想現在程序員門檻有多低就知道了。


小公司我不了解,大公司的需求還是很強的,現在是數據驅動的時代,一切決策歸根結底都是統計。如何用數據驅動?數據就是一堆符號,什麼也驅動不了,要想得出有價值的東西,就要用機器學習。而deep learning是其中最好用的方法之一。
特別是大公司有海量用戶行為數據,這是真正的寶藏和核心競爭力,大量用戶數據+機器學習,是BTA真正賺錢的業務的核心支撐之一。機器學習模型的每一點改進,都能帶來你想不到的利潤提升,你說需求大不大?


一些機器學習可能可以應用的領域:

機器學習正在改變越來越多的行業,為了更好的應用機器學習,我們盤點了一些可以被機器學習改造的行業,以及這些行業對應的具體指標。

在看這些指標的時候,我們可以考慮下面的問題:

  • 我們是為誰解決了什麼問題?
  • 今天它是怎麼解決的?
  • 它會如何有效影響業務?
  • 數據的輸入是什麼,這些數據來自哪裡?
  • 輸出是什麼?它是如何被使用的?(在線演算法、靜態報表等)
  • 這是一個收入漏斗(省錢)還是收入增長(掙錢)的問題?

我們盤點的行業包括了計算廣告、內容推薦、精準營銷、金融、醫療健康、服務業、公司運營、製造業 8 個行業,包含了 70 個指標。由於時間和經驗所限,我們沒能覆蓋到太多行業,每個行業的指標也有很多局限,但從中也許能給你一些啟發,開發出更多適合機器學習的場景。

計算廣告

1、客戶細分

如果你能夠定性的了解不同的客戶群體,就可以給他們不同的市場方案(甚至由公司不同的部門提供)

影響:客戶增長

2、預測終身價值(LTV,Lifetime Value)

如果你能夠預測出高終身價值客戶的特點,就可以進行客戶細分,識別追加銷售(upsell)的機會

影響:銷售增長

3、客戶份額估算

識別客戶在不同類別上的花費情況,這將增加公司識別追加銷售(upsell)和交叉銷售的機會

影響:銷售增長

4、產品組合

什麼樣的產品組合會產出最低的客戶流失率?例如對於剛辦理健身卡的人來說,30 歲以下的男私教 + 30 元的健康餐,是否會降低用戶的流失率?

影響:用戶維持

5、交叉銷售/推薦演算法

給你客戶過去的瀏覽歷史、購買歷史和其他特徵,他們未來最想購買的是什麼?

影響:收入增長

6、追加銷售

給你客戶的特點,它在未來是否會追加購買?

影響:銷售增長

7、渠道優化

給你這些客戶的特徵,最佳觸達客戶的方式是什麼?

影響:客戶增長,支出減少

8、折扣目標

通過折扣誘導消費的概率是多少?

影響:收入增長,客戶滿意度提高

9、再激活的可能性

對於已經停止使用的客戶,再激活的可能性有多少?

影響:客戶維持,客戶滿意度提高

10、搜索引擎優化和廣告購買

為不同的關鍵字、廣告位計算合適的價格

影響:優化推廣效率

11、銷售優先順序

潛在客戶關閉交易的可能性是多少?

影響:客戶維持、收入增長

12、購物籃分析

通過分析用戶的購物籃,提升推薦產品的購買率

影響:增加收入

13、最佳報價分析

分析過去的價格、銷售數量和總銷售額,得出最佳報價

影響:增加收入

內容推薦

14、電商推薦

根據用戶和商品情況,推薦最合適的商品列表

15、好友推薦

根據用戶的情況,給他推薦最適合的好友

影響:優化產品體驗

16、音樂推薦

根據用戶數據,給他推薦合適的音樂

影響:優化產品體驗

17、主播位置推薦

根據用戶數據、主播數據,確定主播頁面的排列方法

影響:優化產品體驗

18、新聞推薦

根據用戶數據、內容數據,確定內容的推送和排列

影響:優化產品體驗

19、餐廳推薦

根據用戶數據、餐廳數據,確定餐廳的推送和排列

影響:優化產品體驗

20、興趣聚類

按照用戶的興趣,分成群組

影響:優化產品體驗

精準營銷

21、用戶流失分析

識別出流失用戶的特徵,以支持公司進行產品調整,並通過在線演算法對流失的用戶提供幫助

影響:用戶維持

22、庫存管理

對於一件商品,客戶需要多少?什麼時候需要?通過預測以達到精益庫存,同時防止缺貨情況的出現

影響:優化管理效率,優化支出

23、價格優化

為每個時間、項目和商店進行優化

影響:提升收入

24、新店選址

根據商店情況、產品情況、地理位置情況等數據進行新店選址

影響:提升收入,風險管理

25、商店中的商品布局

怎樣的布局能夠提高銷售額?

影響:提升收入

26、在商店的購物路線

組合不同的購物路線,得出最佳的方案

影響:增加收入

27、價格敏感度

每增加單位價格,對銷售量有什麼影響

影響:優化管理,增加收入

28、代理和分支業績

如何根據歷史數據,預測新代理的業績水平?

影響:優化管理

29、什麼產品組合更好?

什麼樣的產品組合會帶來最多的銷售數量?

影響:增加收入

30、供應商選擇

我們在從最好的供貨商進貨嗎?

影響:減少支出

31、郵件分組

對不同的客戶郵件進行分組,選擇不同的策略發送郵件

影響:優化客戶體驗,提升收入

32、地推人員管理(也適合很多垂直行業)

確定每天需要多少勞動力配給

影響:優化管理

金融

33、風險預估

給定借款人和貸款的特點,預測債務是否能得到回收?

影響:管理風險

34、財政或貨幣風險

我們需要多少的資金來滿足這些需求?

影響:風險管理

35、新品種金融產品推廣

通過分析相關金融產品的歷史數據,一個新品種的金融產品最適合在哪些地方推廣?

影響:收入增長

36、催收時間確定

在什麼時間點進行催收,會有最好的效果?

影響:風險管理

37、欺詐檢測

當系統預測交易可能涉及到欺詐時,決定是否要阻止一筆交易(例如信用卡欺詐)

影響:風險管理,減少支出

38、反洗錢

使用機器學習和模糊匹配來檢測和反洗錢法相抵觸的交易

影響:風險管理

醫療健康

39、索賠審核的優先次序

根據特徵選擇,確定哪些索賠應該由審核員手動審核

影響:提升審核效率,提升審核精度

40、醫療保險的欺詐分析

通過用戶數據,分析醫療保險中的欺詐行為

影響:風險管理,減少支出

41、醫療資源配置

根據最初病人的訪問,優化/預測手術室和床位

影響:優化醫院管理,提升資源使用率,增加收入

42、實時預警

根據實時的患者數據,為醫生提供警報

影響:風險管理

43、處方依從性

預測哪個病人更可能不遵循醫生的處方

影響:提高就醫效果

44、醫生流失

醫院希望保留那些多點執業的醫生,怎麼確定哪些醫生更容易流失?

影響:維持組織穩定,防止核心資產流失

45、藥物(劑量)有效性

預測不同類型、劑量的藥物對治療疾病的效果

影響:提升就醫效果

46、再入院風險

根據患者的屬性、病史、診斷和治療,預測再入院的風險

影響:提升就醫效果

47、識別產品包裝盒中警告的生物標誌物

在藥品存儲、流通過程中做到更為安全

影響:風險管理

48、藥物/化學發現和分析

更準確、高效的發現新的藥物、化學品的可能性

影響:創新發現

49、識別不良反應

例如在社交網路中監測藥物會出現的早期問題

影響:風險控制

50、預測不同地區對不同藥物需求

根據藥物銷量數據、不同地區的疾病數據、藥店、醫院數據等,確定藥物的分發策略

影響:優化管理

51、通過不用的方法預測處方依從性並提醒患者

根據患者數據、藥物依從性的歷史等,預測哪些患者會不遵循醫囑

影響:優化客戶體驗

52、患者評價數據

識別患者對藥物的看法,哪些是正面反饋、哪些是負面反饋,以及如何通過反饋提高藥物的質量

影響:優化客戶體驗

服務業

53、酒店動態定價

根據酒店歷史數據、日期、人流量等各種信息,確定酒店動態定價

影響:提升收入

54、酒店優惠券

分析不同的優惠政策會給酒店帶來什麼影響

影響:提升收入

55、酒店預約管理

預測一天當中會有多少人預約酒店

影響:優化管理

56、飛機調度

根據客流、天氣狀況,給出最佳的調度方案

影響:優化管理

57、旅遊預測

根據旅遊地的情況,分析是否要新增航線

影響:新產品開發

公司運營

58、簡歷篩選

根據候選人的特徵,包括上一份工作、畢業學校、學歷、年齡等進行簡歷篩選

影響:優化招聘效率

59、員工流失

預測哪些員工最有可能離開

影響:維持公司穩定

60、培訓推薦

基於績效考核數據,推薦特定的培訓項目

影響:提升員工水平

61、可能性問題預測

儘早預測建設項目中可能會出現的問題

影響:風險管理

62、呼叫接聽路徑

基於呼叫者 ID 的歷史、時間、呼叫的數量、擁有的產品、流失的風險、終身價值的多少確定呼叫的路徑,這決定了每一個呼叫者的等待時間

影響:提升用戶體驗,保證關鍵用戶的體驗

63、呼叫中心的消息優化

把最合適的數據放在操作員的屏幕上

影響:提高操作員效率,提升用戶體驗

64、呼叫量預測

為了更好的確定呼叫人員的排班,進行呼叫量的預測

影響:減少呼叫中心的成本,優化管理

製造業

65、產量管理

通過監測土壤的感測器數據,預測農產品的產量

影響:優化管理

66、災害預測

通過土壤數據、天氣數據、農作物數據等,預測是否會發生農作物災害

影響:風險控制

67、故障預測

通過感測器數據來預測故障的發生

影響:優化管理

68、保修預測

預測產品是否需要保修

影響:優化管理

69、電力分配

根據地區、時間的不同,確定需要分配的電力

影響:優化管理

70、可能問題預測

儘早預測建設項目中可能會出現的問題

影響:風險管理

參考文章:Data Science Use Cases


今天我也在微信朋友圈中看到了李開復的這篇文章,註明說根據講話整理出來的。因為很多內容都是最近熱炒的話題,所以都沒有印象了。有一個表述我印象很深刻,也很迷惑。

一方面說深度學習人才奇缺,那篇文章是列了一個數字的,具體多少我沒有刻意去記,反正極其鳳毛麟角,扳著手指頭數得出來的數字,太搶手了,從而倡導國家加大培養力度,如果我沒有理解錯的話,說是2年就有收成。一下子勾起了我的記憶,看來培養深度學習人才就像種山楂樹一樣,很多很多年前,某領導說山楂是好東西,結果我老家的親友都開始種山楂樹,3年以後整片整篇的山楂爛在樹上沒人要。

多年來一直在做中文信息處理和數據挖掘的工作,在大部分商業項目中,不帶「深度」的機器學習技術還用不上的商業實際環境中,確實也無暇去仔細思考「深度」在哪裡。


我就轉一張圖。。。。。


這個領域,人才供給弱,但是對人才需求更弱..

還沒有真正的滿足痛點的產品誕生,大家還是在前期的科研中。


刪了一些廢話,大致來說,至少在天朝吧,目前離真正大規模的實際應用還是有一些距離的。
至少在中國很多相關研究還停留在發論文的階段。有沒有產品,有當然有。但是我總覺得產品離心目中的我的設想還很遠。至於樓上提到什麼BAT應用,我真的無語。我講的難聽點,BAT除了給的工資多一點以外,他們公司本身有對人類社會做出任何貢獻嗎?貢獻就是開發了各種坑錢坑爹的遊戲,大搞外賣,賣假藥軟體以及整了個假貨批發集散地?深度學習在那邊應用也能叫應用?呵呵。講到這個,百度之前不還因為ImageNet作弊被禁賽了么,看著也是揪心。(抱歉激動了,不過看看人家google再看看我們的百度,哎。真不知道該說啥好,你說李彥宏你好歹也是發過PAMI的人啊,怎麼就這麼。。)

言歸正傳。比如目前一個比較有前景的是醫療大數據方面的應用。據我所知諸如Philips在他們的工作站裡面加入了一些深度學習的內容,國內也有一些公司做,但是離實用還有一段距離。(恩,百度也在做,我知道的,其實不光是知道,具體細節不多談了)還要幾年甚至10年吧我估計。深度學習這一塊對硬體要求蠻高的(這也是為什麼BAT做的最起勁,他們有錢任性),要跑得快硬體必須要過硬。而且數據量要的也很大,更不要提一般的科研者用Matlab在那兒跑深度神經網路那個速度。美國的情況我不知道。以前在14年的ICML騰訊的人說他們還在用Logistic回歸,現在據說在研究深度學習,然而。。。(講到這個,QQ做這東西幹啥么,廣告定點投放。。。)

然後在美國可以拿到200萬美金的年薪,這個要看人的。至少據我所知我們學校做深度學習的搬磚狗那是一堆一堆的。所以也還是要看做得怎麼樣(說白了,你有幾篇CVPR,ICCV啊?)所以你說的那些應該是Hinton的高徒們吧(說實話如果有比如ConvNet作者那種代碼水平,200W給少了,要我說,應該給500W)。

題外話,深度學習確實是好用,很多論文的結果都證明了這一點。實際也是,比如AlphaGO。但是機器學習本身不是就一個深度學習的方法。多了去了,什麼貝葉斯,SVM,隨機森林,Boosting,各種各樣的。這些不好用嗎?也很好用,實際上在某些領域,應該說很多領域還是SVM的準確率最高的。


上海寶鋼和 Intel 合作,對鋼材進行質量檢驗。對生產線上拍攝的照片,用機器學習的方法識別其中的劃痕,酸洗,來代替人工檢測。


深度學習是近三年才興起的,它的的興起語音識別,自然語言處理,圖像識別/處理都有了很大的進步。
語音識別方面,微軟的AI研究院就是做這個的,自然語音處理以IBM的watson為代表,圖像處理的大牛是斯坦福大學的Feifei Li教授。
應用方向來看,矽谷很多公司在研究無人車,除了谷歌,還有各大汽車廠家的研究院,特斯拉,百度,以及最近興起的創業公司未來汽車。我問過很多在這個領域做的人,都覺得未來幾年內這個領域不會有太大的突破,倒是半自動駕駛有很多想像空間(不確定是不是叫這個,就是車自動倒車入庫等功能。)因為路況實在太複雜了,有個博士告訴我,如果在中國,按照中國國情,車幾乎就動不了了(因為大家都不太遵守規則,哈哈)

有個做語音識別(深度學習)研究的博士告訴我,其實就是外行看熱鬧的一些辭彙,人腦還是比機器複雜多了,機器永遠不可能代替人腦。

圖為微軟AI研究院的chief scientist鄧立博士在人工智慧大會上的演講PPT。

PS:李開復說的剛畢業兩百萬美金年薪的數據是錯的,二十萬倒是有可能。接觸過剛畢業一年左右薪資二十萬的做圖像識別的博士。這個是非常優秀的情況下了,大部分起薪還是十幾萬左右(矽谷)。


國內做人工智慧的公司大體上分成語音、語義、圖像(視頻)這麼幾個領域,語音的訊飛、語義的小冰等都挺知名了,但圖像(視頻)領域今年大爆發。
語音:訊飛已經算一家獨大多年了,幾乎是語音識別的代名詞了。不過雲知聲一直沒有放棄還在奮起直追。語音的應用比較多,導航、駕駛模式、視障應用都不少,還有語音轉文字的需求也不少。
語義:這部分早年就是調戲機器人了,從最早的msn的小i機器人開始,蘋果的siri把語義識別推向前台,現在又出了各種可供調戲的機器人。產業方面真的有大應用的應該就是客服系統了,大的客服SaaS,比如環信、美洽、智齒客服等等都在力拚客服機器人的智商。
圖像(視頻):計算機視覺CV領域的深度學習近幾年開始爆發,論應用的話,集中在金融、安防、機器人、無人機幾個特殊領域。比如金融安防的face++、格林深瞳、商湯科技、雲叢科技等都各有特色。
在大的視頻網站領域,優酷的邊看邊買里使用了衣加的深度學習的視頻識別成果,可以讓用戶輕鬆畫框就可以識別視頻中的商品,實現視頻的電商引流,是在2c視頻領域目前唯一的人工智慧商業化的產品了。


問題的根結不在這兒。國內有多少公司意識到自己數據的價值,並且一直在積累數據的,有,但是沒想像中那麼多。

我覺得用有限的數據能做出相對準確的判斷才是更適合咱們的。畢竟很大的數據體量,及基於合適體量的數據處理技術不是誰都能具有的。


是時候祭出一張圖了,選自 雷鳴老師 開的課 《人工智慧前沿與產業趨勢》

從歷史上來看,每一次突破性科技的進步都會大量創造社會財富,改變人類的勞動方式。上圖應是人工智慧時代一個願景,人工智慧最終取代人類的技能勞動,轉向創新勞動


深度學習雖然火,但是這方面的人才需求,我覺得更多的還是偏開發方向而不是演算法方向,純理論的研究畢竟不能商業化


在東京從事AI,IoT,數據分析諮詢的工作。客戶均為日本製造業大手。還算比較了解在日本製造業AI的運用,簡單談談工作中了解到的情況。
從前幾年開始,各大日本廠商均投入大量人力物力來發展機器學習,深度學習等的研究和應用。和國內一樣,AI,IoT也是日本政府近年的重點扶持對象。各種技術研究已經比較成熟,但在應用上還是處於試點,PoC階段的比較多,在實際的業務中普及的還很少。有幾個原因。

1.用於分析的數據不足。這是大部分傳統製造業公司都有的問題。因為一直以來的業務流程,業務內容,各個環節使用的設備等不是以數據分析為導向來設計,安排的。所以,設備上沒有安裝收集數據的censor,能用於分析的有效數據沒有留存,已有的數據沒有好好管理等等的現象比較多。而且從安裝censor到積累數據是一個浩大的工程,需要漫長的時間和高昂的成本。所以普及比較難,還需要時間。當然財大氣粗的大手們都知道這些是未來趨勢,所以每個公司都已經在進行各種努力,以後成功事例會越來越多。

2.過剩的品質追求。日企追求品質是短時期內無法改變的文化。很多公司都是以品質至上為驕傲,即使花費過多不需要的成本也不願意解決品質要求過剩的問題(沒有膽子承擔出現品質問題時的風險)。特別是在一些人命關天的產品上,比如電車,電梯等等。這就給機器學習等新技術的應用增加的難度。眾所周知,分析都是有精度的,沒有百分之百的準確率,特別是預測,在沒有得到驗證的時候,誰也不能保證預測結果一定準確。比如在電梯的故障分析中運用機器學習進行預測,那必須承擔未能成功預測時的風險。在不能保證機器預測高於熟練員工的經驗時,不敢貿然應用。所以很多技術在理論上都可以解決很多製造業的問題,比如降低人力成本之類,但在很多領域,真正普及是一個投資很大很難的課題。需要企業有很大的覺悟從根本上改革。

3.投入產出費用比不高。製造業範圍太廣,每個行業的試錯成本都不一樣。能否大範圍應用還是看B/C。比如說精密製造業,一條產品線的成本很高,如果運用AI成功的時候能夠減少5%的成本,可是失敗的話增加80%的成本。那不導入AI維持現狀才是合理的。還有些產品本身品質就很高,能改善的餘地很小,比如說,如果產品本身就是不發生故障的,那預測也就沒有用啦。所以在零售業互聯網之類比較容易看到成效的行業比較容易普及吧。

這個問題太廣。要寫的話能寫篇論文了。先到這。


目前正在接觸一家印度人工智慧和計算機自適應的人才測評公司。簡而言之就是通過計算機的自適應去反覆考量被測試目標的能力區間,再應用人工智慧的方式純機械評判測試結果,並分析出被測試者在整個人群中的排名。

在工業領域就是考量被測試人群在行業內的勝任力。具有很高的信效度。

了解的只是一點皮毛,希望能對您有所幫助:)


未來深度學習會觸及到生活的方方面面,就像現在人人玩手機一樣普及。


機器學習:machine learning,是計算機科學和統計學的交叉學科,基本目標是學習一個x-&>y的函數(映射),來做分類或者回歸的工作。之所以經常和數據挖掘合在一起講是因為現在好多數據挖掘的工作是通過機器學習提供的演算法工具實現的,例如廣告的ctr預估,PB級別的點擊日誌在通過典型的機器學習流程可以得到一個預估模型,從而提高互聯網廣告的點擊率和回報率;個性化推薦,還是通過機器學習的一些演算法分析平台上的各種購買,瀏覽和收藏日誌,得到一個推薦模型,來預測你喜歡的商品。

深度學習:deep learning,機器學習裡面現在比較火,本身是神經網路演算法的衍生,在圖像,語音等富媒體的分類和識別上取得了非常好的效果,所以各大研究機構和公司都投入了大量的人力做相關的研究和開發。

總結下,數據挖掘常用方法大多來自於機器學習這門學科,深度學習是機器學習一類比較火的演算法,本質上還是原來的神經網路,更多知識學習參考:人工智慧視頻。應用情況:人工智慧,比如各類模擬、擬人應用,如機器人;醫療用於各類擬合預測;金融高頻交易;互聯網數據挖掘、關聯推薦;再具體一點,比如水產的水質預測,比如無人汽車,應用了機器學習和神經網路。


推薦閱讀:

CVPR 2017 有什麼值得關注的亮點?
你們家的人工智障掃地機器人出現過哪些讓人啼笑皆非的事情?
如何評價 UCLA 朱松純教授近日訪談中對深度學習的批評?
目前的人工智慧離可以自己給自己寫代碼編程還有多遠?
為什麼 Siri 不能聯繫上下文跟你對話?

TAG:互聯網 | 人工智慧 | 工業 | 機器學習 | 深度學習(Deep Learning) |