AI認知進階手冊
來自專欄混沌大學7 人贊了文章
沒想到吧,高大上的AI(人工智慧)核心技術基礎 ——機器學習,其實模仿的是人類學習的套路:模型+內容(數據)+……
作為一名創業者或者投資人,你該了解的機器學習常識是怎樣的?世界頂尖AI學者邢波教授給出了系統的解答。
? 目前的人工智慧,或者說以深度學習為代表的一些方法論的研究,更像是古代的鍊金術,而不像是現代的化學。
—— 邢波
邢波,師從機器學習泰斗級學術大咖 Michael Jordan ,卡耐基梅隆大學機器學習和醫療中心主任,2017年機器學習學術水平排名世界第一。
同時,他還是生物化學與計算機科學的雙料博士,創立了通用機器學習平台Petuum,並獲得了軟銀投資。
授課老師|邢波卡耐基梅隆大學計算機科學學院教授
通用機器學習平台 Petuum 創始人
20年前,當我剛進入這個領域的時候,人工智慧還處在谷底,是一個比較冷門的、不被重視的狀態。那個時候,這個專業叫 ——機器學習。
這是人工智慧的核心技術基礎。
事實上,我更喜歡這個名字,因為它把「人」這個詞給去掉了,免除了很多不必要的誤解。
我就是用一台計算機或者一種設備,來學習某一種能力,這個能力是人的能力,還是其他的能力,並不重要,從而使得這個工作本身更加穩健和專註。
什麼是機器學習?
P、T、E
人在學習什麼東西呢?
人的學習可能要更高級一點,它其實包含了對環境變化所做的預測,甚至是預測後面的規則,是人所感興趣並希望學到的。
比如說我們對自然科學知識的學習,就包括了學習它的法則、流程或者語法這些不同的規則,這些都是我們從數據或者從知識環境裡面,可以獲得的一些學習的套路。
學多了以後,你就會發現,有時候就變成機械化,你不想,就可以反應了。
同樣的道理,機器學習的定義是這樣的 ——
它關注的是怎麼能夠建立一個通過體驗,自動提升自己功能的計算體系或者計算系統。這個計算系統能夠通過跟環境交互的體驗,自動提升自己的能力。
再詳細點說,機器學習的計算系統,包括三樣東西:
P就是性能(performance),機器學習非常重要的一件事兒就是性能,就是「好不好」。
T就是任務(task),到底是做什麼事。E就是體驗(experience),實際上就是數據或者是獲得數據的過程。
接下來的一個關鍵問題是,機器學習實際上是怎樣發生的?
基本上來說,機器學習的流程需要三大因素:
一個是要有「環境」,環境裡面有數據,數據裡面包括了音頻、視覺、行為等各種各樣的數據,還包括了體驗;
然後就是「感知」(learning),實際上是把這些數據形式化、抽象化,然後再了解裡面的關聯,甚至了解裡面的一些因果關係。數據的表徵裡面能夠獲得對於預測的應對關係;
最後,學完了以後就需要來做「決策」。
決策的本質就是在一個特徵空間裡面做邊界的劃分。
? 舉個例子,如何區分南方人和北方人?
由於時代的變遷,如果僅從飲食習慣、外形和身材等維度去區分,不是很容易,但如果增加一個維度或者邊界,比如說個北京話繞口令,這個問題就容易解決了。
整個過程的完成,通常無法依靠數學解析,而需要使用適當演算法實現一個遞歸循環的過程,不斷地迭代以後希望它能夠收斂。
為什麼說「希望」收斂呢?在很多情況下,依據數學方程的形式和決策,試了很多次還是收斂不了,那這種情況下就只能看運氣了。
所以,選擇用什麼樣的方程,選擇最有效的決策,使用什麼演算法,甚至在什麼計算設備上實現,實際上對於機器學習的最後結果的質量是有很大的關係的。
作為一個研發人員,需要具備比較充分的理論知識,才能在演算法或者方案不太靈光的時候能夠有足夠的知識儲備找出替代方案,所以知識體系很重要。
怎麼實現機器學習?
掌握4個要點,擁有更強的實戰能力
實現機器學習的手段相當豐富。所以,一個成熟的工程師和研發人員,只有具備系統地結構化的知識儲備,才能有更強的實戰能力。
所以,在長期教授機器學習的過程中,我有意識地把機器學習的手段,進行了分類,就好比一個書架,把每不同的書給放在不同的層裡面。
簡單講,是這樣的:
① 起點,即選擇「目標方程」。
舉個例子,假設要培養小孩,有人會要他上私校、彈鋼琴、學數學、參加奧賽……這就是所謂的優化小孩能力的演算法。
那最終目的是什麼呢?
這個最後想要達到的結果就叫「目標方程」,比如說這個方程最後是小孩考上了大學,或者成為一個成功的企業家。
② 結構
模型本身,變數之間,有不同的架構和關聯。
③ 限制
這個模型是可以在無邊界的情況下自由選擇?還是只在一個空間里,做有限的選擇?
有時候,「限制」是好事,可操作性強一點。但有時候,也會損失很多機會。
比如送小孩兒上學,需要選學區,還有價格的考量,這些都是限制。
④ 演算法
用哪種方法論來實現「目標方程」?包括不同的數學技巧,就好比培養人,是讓他學琴還是學數學,來達到育人的目的。
⑤ 停止條件
什麼時候該停下來呢?
比如說,是直到小孩考上哈佛才停下來,還是到了30歲就停下來?
總之,你不能永遠地訓練下去,需要有一個跟價值或者跟回報相關的停止條件。
怎麼實現機器學習?我們再來用「神經網路+深度學習」來說明一下。
它的起點非常非常樸素 ——人工神經元,神經網路就是好幾個神經元變成了一個網路。
? 什麼是人工神經元?
在人的大腦里,有一個元件叫神經元,它是一個細胞,包含了細胞核、突觸。經過神經學的研究,發現突觸實際上就像導線一樣,可以跟其他的神經元產生接觸,獲得信號。而細胞核實際上是一個激活機制,當信號強度達到一個比較高的水平以後,它的離子開關就被打開了,這樣可以產生一個電擊的信號。
後來,人們用數學的方式,模仿生成了一個有類似功能的組件,即人工神經元。
到了工程層面,可以把抽象的數學描述變得更具體化、可操作化。
比如有3個自變數(年齡、性別、階段)的輸入。然後它可以進入下一個神經元,在進入的過程中它其實可以被加權,這叫權重。
中間是隱含層,輸出還沒看到的部分。
最後還有一個所謂的閥門函數。
比如這個函數是一個生存概率,它健康還是不健康,這就是一個函數。可以把整個的過程當成一個F,自變數就是X,結果就是Y,但這個F是用了一個多級的組合加權重加域值的方法來定義的F,是一套組合動作,而不只是一個簡單的方程,就不是一個簡單的線性邊界了。
你看,就這一個神經網路模型,就把感知和決策都放進去了。
所以,深度神經網路並不神秘,這個深度神經網路裡面有很多很多層,根據經驗來決定到底多少層是最好的。
總之,深度學習整個的設計,大致是模仿了很多人、動物,或者是一個能夠想像的、靠譜的神經系統對於物體的認知過程。
?Tips:
這些關於「深度學習」的誤區,你一定要警惕
作為機器學習的技巧之一,到目前為止,深度學習獲得了巨大成功,甚至有人認為,深度學習是全能冠軍,所有的任務,深度學習都能有很好的效果。
但事實真是這樣嗎?以下的認知「誤區」,需要你特別注意:
1. 深度學習,只是機器學習的技巧之一。
除此之外,還有概率圖模型、度量學習、核方法等,但是這些手段,並沒有獲得足夠的重視,從而導致產品研發和商業化遇到困境。
2. 目前的人工智慧,或者說以深度學習為代表的一些方法論的研究,更像是古代的鍊金術,而不像是現代的化學。
我們對中間的道理、原則、原理了解的還非常少。
舉個例子:
為什麼大家最近關注的晶元工業,在中國還無法突破很多技術瓶頸?
除了工藝設備的限制,另一個重要原因是因為很多時候我們習慣的研發方式是反向逆推。
比如說我們拿到一塊進口晶元,設計很精密,通常的做法是,用顯微鏡把電路全拍下來,拿給工程師,讓他如法炮製,最後造出來一個在形式上一模一樣的晶元。
但是,如果中間出了小問題,比如某個地方的照片沒有照清楚或者某個地方加工的工藝不夠,出現了一些小瑕疵,整個晶元就突然一下子不工作了,或者效果很差,工程師就抓瞎了,因為他也不知道怎麼來調、怎麼優化。
原因是什麼呢?
因為逆向製造的過程,不包含對原理的了解,所以一旦出錯,很難恢復。
同樣的道理,在深度學習領域也是這樣。突然換了一台設備,某個連接跟原來實現演算法的情況有點不太一樣,演算法就會莫名其妙地失效,或者產生一個奇怪的不可預測的反應。
比如特斯拉出現的幾個自動車事故,就是因為突然出現了原來訓練集裡面沒有的圖像,這並不是所謂的功能遞減,而是一個徹底的失敗,就是因為深度學習內部的一些原理還沒有搞清楚。
這就像在現實生活中,比如說教育小孩兒,為了讓他40歲能做總裁,你會不斷地讓這個小孩兒去學鋼琴、學奧數、學古文等各種各樣的東西。但是,這些因素跟40歲能否成為總裁是否有因果關係,並不十分清楚。
這就是目前深度學習面臨的最嚴重的問題 ——
訓練過程與目標方程中間的因果關係並不是很直接,所以一旦失敗,調錯就非常難調。
3. 機器學習領域的研究遠未飽和,但遺憾的是,現在學校、工程界或者整個的社會層面,這種打破砂鍋問到底的慾望不是很強烈,資源也不是很多,所以造成了深度學習的應用瓶頸。
4. AlphaGo的勝利是一個可以預料的結果,不必恐懼。
小結:
什麼才是好的機器學習?
注意,它得是一個能被全面分析和表達的東西,它需要能夠被人類理解和感知。
為什麼我現在對很多深度學習系統,持有一定的保留態度?因為很多的結果,還不能被解釋,當出現功能失常或者事故的時候,你很難去做一個診斷或者手術性的改動。
而這個缺陷實際上對很多系統是致命的,為什麼?
因為這會使整個研發和部署成本變得相當龐大,而且是很多非專業人員望而卻步的。
總之,從事AI領域,你需要謙虛踏實一點。
本文根據邢波在混沌大學創新院的課程整理而成,內容有刪減。關注知乎機構號「混沌大學」,私信關鍵詞「邢波」,即可聽取完整課程。
推薦閱讀:
※計算機論文精選文章索引
※到底人工智慧會不會統治世界?
※人工智慧這把火,會讓.ai域名成為下一個.com嗎?
※【兩分鐘論文】專門反制DeepFakes的AI出現了
※資訊理論視角下的深度學習簡述,形式化的泛化誤差分析