結構化感知器(structure perceptron)與普通感知器(perceptron)有何不同?
02-06
為什麼使用結構化感知器(structure perceptron)就能進行全局學習(global learning)?
謝邀。首先,「全局學習」的概念主要針對的是結構化預測問題(structure prediction),比如序列標註或者句法分析。不同於簡單的多元分類,在結構化預測問題中,通常需要一個較為複雜的解碼過程才能夠獲得最終的結構化輸出。
以序列標註為例進行說明:
如果我們為每一時刻的標籤預測學習一個分類器,而不考慮不同時刻標籤之間的依賴性,那麼我們只需要抽取與該時刻類別(y_t)相關的特徵:f(y_t, x),再使用線性函數對其打分:s = w * f(y_t, x),並根據感知器來更新參數。
如果我們考慮對全局結構進行整體性的預測:y = [y_1, y_2, ..., y_n],那麼就需要抽取全局的結構化特徵了,即:f(y, x)。那麼對於整體結構預測的打分則為:s = w * f(y, x),然後再根據感知器更新參數。當然,如果考慮序列y中所有時刻標籤之間的依賴性,則f(y, x)在某些情況下會變得很難計算。因此,我們通常需要引入一些獨立假設,比如Markov假設。反映在factor graph中,也就是定義好clique。
到這裡就很清楚了,結構化感知器與普通感知器在學習演算法上是一致的,主要的區別在於特徵抽取是否考慮全局的結構化輸出。而特徵抽取過程則進一步決定了模型能否進行全局的結構化學習以及預測。推薦閱讀:
TAG:人工智慧 | 機器學習 | 神經網路 | 人工智慧演算法 | 深度學習DeepLearning |