張志華 Machine Learning 第一講
- Machine Learning
a filed that bridge computation and statistics, with ties to information theory, signal processing, Algorithm, Control Theory and Optiminal Theory.
對於n個樣本,p個屬性的樣本X,以及目標Y
對於每個樣本,使用類向量表示:
則X可以表示為:
有監督學習
對於已知樣本類別信息Y,推導出X與Y之間的關係,從而對位置類別信息的樣本進行預測。
最簡單的是使用線性關係:
通過估計參數從而確定X與Y之間的關係。轉化為回歸問題.
在估計時,使用:
通過最小化目標函數來確定參數的取值,通過求導,使得一階導數為0:
當可逆的時候,可以確定,這類問題為最小二乘估計問題
當不可逆時,通過給目標函數增加懲罰項:
由於是可逆的,因此
這類問題稱為極回歸問題。
可以將數據分為三組:
- Trainning Data 訓練數據
- Validation Data 驗證數據
- Test Data 測試數據
在確定參數時,可以人為的設定,例如設定不同的取值,然後使用訓練數據求參數,然後使用驗證數據進行驗證,選擇使得驗證數據準確度最高的。
在使用懲罰函數時,還可以使用一範數:Lasso模型,一範數的優點在於求得的中有許多元素為0,從而降低維度。
由於上述模型的出的是一個實數,適用於對連續Y進行分析。對於離散的分類還需要進行離散化。
對於離散的Y,可以使用貝努力離散化,即假設獨立同分布
然後使用X來定義,可以使用sigmoid函數以及正太分布,使得取值在0到1之間
從而轉化為最優化問題。
無監督學習
對於n遠遠小於屬性的維度p時,可以通過變化將數據映射到新的維度,從而保證樣本數大於屬性個數。降維可以分為線性降維以及非線性降維
半監督學習
通常,樣本只知道一部分的分類信息,此時可以隨機對未知樣本進行標記,然後進行訓練,然後使用訓練後的模型對未知樣本進行標記,迭代進行,直到穩定。
推薦閱讀:
※【機器學習Machine Learning】資料大全
※喜報!人工智閱讀理解能力首超人類,AI時代來了
※自然語言處理(NLP)數據集整理
※K-means,高斯混合模型及其EM步驟詳解
※「伊人」何處,宛在雲中央:用 Datalab 在雲上部署互動式編程環境
TAG:機器學習 |