1.3 無監督學習
05-10
與監督學習不同,我們沒有告知每個輸入的期望輸出是什麼。相反,我們將任務形式化為密度估計,也就是說我們想要建立形式為 的模型。與監督學習有兩點不同。首先,我們用 而不是 ,即監督學習是條件密度估計,而無監督學習是無條件密度估計。其次, 是特徵向量,所以我們需要創建多變數概率模型。
1.3.1 發現聚類
無監督學習的例子之一是聚類。設 表示聚類數量。第一個目標是估計聚類數量的分布 ,這告能訴我們數據內是否有子群體。為了簡單起見,我們經常通過它的模式 來近似分布 。第二個目標是估計每個點屬於哪個類。令 表示數據點 屬於哪個類。訓練集中沒有出現過的 被稱為隱變數。通過計算 我們可以推斷每個數據點屬於哪個類。
1.3.2 發現潛在因素
在處理高維數據時,通過將數據投影到低維子空間來降低維度通常是有用的,這能抓住數據的關鍵。這被稱為降維。該技術背後的動機是,儘管數據可能呈現高維度,對應於潛在因素,可能只有很少的變化程度。主成分分析是最常用的降維方法。
1.3.3 發現圖結構
有時我們測量一組相關變數,並且想要發現哪些與其他哪些變數最相關。這可以用圖 表示,它的節點表示變數,邊表示變數間的直接相關。通過計算 ,我們可以從數據中學習到這種圖結構。
1.3.4 矩陣填充
有時會缺失數據,也就是變數數值未知。我們可以推斷缺失數據的可信值,也被稱為矩陣填充。例子就是圖像修復,協同過濾,頻繁項集挖掘。
推薦閱讀:
※數據挖掘有哪些常見的應用模型?
※機器學習基石筆記11:邏輯斯蒂(Logistic)回歸 下
※【翻譯】Brian2高級指導_狀態更新
※一起來學西瓜書!(緒論)
TAG:機器學習 |