紐約大學陳溪:機器學習與決策的有機結合 | 數據派THU報道

紐約大學陳溪:機器學習與決策的有機結合 | 數據派THU報道

1 人贊了文章

文章轉載自數據派THU

2018年8月22日

近日,在杉數科技2018第二屆AI大師圓桌會上,紐約大學助理教授陳溪發表了題為《 AlphaGo Zero技術演進的必然性-機器學習與決策的有機結合》的演講。

可通過官微「杉數科技」獲取「完整版演講原文」。

陳溪:今天我要跟大家分享一下為什麼要把機器學習和運籌學這兩個學科結合起來,才能有效地解決很多實際的問題。

一、機器學習

什麼是機器學習?首先需要有一堆數據,然後有機器學習的演算法,對於數據的統計建模、概率建模和數據的假設來作為演算法的支撐。機器學習一般常用的應用是對數據進行預測,比如預測明天股票的價格,這種都是一些基礎的預測,更重要的是通過機器學習,去學習數據中的一些模式。

機器學習從大的角度分成兩類:監督學習與無監督學習(Supervised Learning & Unsupervised Learning)。比如我們通過房間里的照片來識別人臉,用某些方式進行一定的標註來確定人臉在什麼地方,這時候我們就叫做有監督的學習。監督學習的框架如上圖所示,根據預測的函數,把機器學習的特徵映射到值域上。

沒有監督的學習是一個更加廣泛的領域,比如我們需要把圖片進行分類,這是完全根據人的需求和感覺,通過機器學習方法進行分類。

深度學習是一個自動提取特徵的有效工具,比如圖像的結構化讓深度學習得以提取足夠的特徵。然而並不是每個領域的數據都能夠通過深度學習的方式把有效的特徵提取出來,比如在很多金融領域,一定要把深度學習與非深度學習的方法進行有效的比對。

二、從學習到決策

傳統的機器學習通常處理靜態數據,但是這並不能滿足很多商業需求,許多商業應用最終需要做決策

上面這張圖把整個數據分析分成五個階段:

第一階段:Descriptive(描述性),對數據進行基本的描述;

第二階段:Diagnostic(診斷性),對數據進行基本的診斷;

第三階段:Discovery(發現),挖掘數據內在的模型;

第四階段:Predictive(預測性),預測可能發生的情況的分析;

第五階段:Prescriptive(指定性),數據驅動決策的過程。

在現實領域中,我們會遇到很多決策的問題,比如決策庫存量、設施位置、路線規劃、商品價格等。

AlphaGo Zero,作為圍棋的一個重大進展,它不僅要對對手進行預測,同時還要對落子進行決策。所以Google設計了deep reinforcement learning(深度強化學習),它帶有決策的成分,通過Monte Carlo tree search(蒙特卡洛樹搜索),讓機器和機器自己進行對戰,從而進行學習。不管是學習還是決策,Simulation technique(模擬技術)在AlphaGo Zero中也很重要。

對於商業應用仍然很簡單,這是為什麼?在一個圍棋的程序中,儘管搜索空間很大,信息是完整的,然後目標函數簡單而明確(贏或輸),而在商業決策過程中,目標函數可能會非常複雜。

這個研究工作叫Assortment optimization,基本上是一個推薦系統,比如搜索一個航班,它會自動幫我挑出性價比最高的幾個航班。

做Assortment optimization?首先,我們要了解客戶的購買行為,然後用choice model(選擇模型)去做選擇。

MNL是Logit類模型的基本型式,其選擇一個產品的概率等於這個產品的效率(用戶喜歡的程度)除上所有推薦產品的效率總和加1(S:推薦的產品,a:選擇的產品,1:用戶什麼產品都不喜歡)。

在現實生活中還有很多複雜的情況,MNL不可能是一直有效的模型。

Nested logit models是先選擇一個大類,然後在大類中再進行產品的選擇,如上圖所示,概率分成兩部分,一部分是選擇毛衣的概率,另一部分是選擇毛衣的具體款式的概率,這樣就構建了一個多層的選擇過程。

給定choice model,如何選擇最好的產品推薦給客戶?我們選擇一個S(推薦的產品)做組合優化,使得它數學期望值的收益最大化。然而,現實生活中更複雜的問題是你並不知道用戶選擇產品的概率。

Ruelala和唯品會是快消品的銷售平台,銷售時間很短,沒有足夠多的歷史數據去學慣用戶對產品的喜好程度。Facebook在做在線廣告的時候,若產品的選擇數以百萬計,這時候就無法估計用戶對每一個產品的喜好程度。所以我們需要動態推薦系統,把機器學習和智能決策結合起來。

上圖是簡單的動態雛形,在每一個時刻我們假設給用戶做一個產品的推薦,通過用戶購買情況,不斷的學習和做決策,一直到整個銷售區間終止。如果知道用戶的選擇概率,可以把它做成靜態的優化問題,如果不知道,就做成一個動態的優化問題。

怎麼評估演算法的好壞?在學術圈有一個叫Regret analysis的方法:將最佳分類與選擇分類預期收益均差最小化。我們的目標是構造一個機器學習和決策的演算法,使得在時間足夠長的時候,收益差非常小,以及收益差怎麼減少。

這些模型雖然很有用,但還不夠複雜,機器學習的精髓在於特徵的提取,比如利用上下文的信息,把用戶和產品的特徵提取出來,做一個動態的Choice Model,這樣就能更好的服務於現實。

沃爾瑪做過類似的工作,根據用戶已經放在購物車裡的產品,在最後結賬的過程中再推薦產品。

三、總結

很多商業的問題極其複雜,我們要深入理解問題本質的結構,機器學習與決策要有機的結合起來。只有把機器學習過程,隨機的建模和優化全部柔和在一起,我們才能對大數據進行更好的理解和處理。


推薦閱讀:

請衛計委不要繼續誤導決策
一代明君朱元璋,因為這個決策貽害百年,最終斷送大明江山
ASCO 2015 帶給我的10大臨床決策改變

TAG:數據分析 | 機器學習 | 決策 |