標籤:

1.3 無監督學習

與監督學習不同,我們沒有告知每個輸入的期望輸出是什麼。相反,我們將任務形式化為密度估計,也就是說我們想要建立形式為 p(mathrm{x}_{i}mid 	heta) 的模型。與監督學習有兩點不同。首先,我們用 p(mathrm{x}_i mid 	heta) 而不是 p(y_i mid mathrm{x}_i ,	heta) ,即監督學習是條件密度估計,而無監督學習是無條件密度估計。其次, x_i 是特徵向量,所以我們需要創建多變數概率模型。

1.3.1 發現聚類

無監督學習的例子之一是聚類。設 K 表示聚類數量。第一個目標是估計聚類數量的分布 p(K mid D) ,這告能訴我們數據內是否有子群體。為了簡單起見,我們經常通過它的模式 K^*=arg max_K p(Kmid D) 來近似分布 p(K mid D) 。第二個目標是估計每個點屬於哪個類。令 z_iin {1,ldots ,K} 表示數據點 i 屬於哪個類。訓練集中沒有出現過的 z_i 被稱為隱變數。通過計算 z_i^*=arg max_k p(z_i=kmid mathrm{x}_i ,D) 我們可以推斷每個數據點屬於哪個類。

1.3.2 發現潛在因素

在處理高維數據時,通過將數據投影到低維子空間來降低維度通常是有用的,這能抓住數據的關鍵。這被稱為降維。該技術背後的動機是,儘管數據可能呈現高維度,對應於潛在因素,可能只有很少的變化程度。主成分分析是最常用的降維方法。

1.3.3 發現圖結構

有時我們測量一組相關變數,並且想要發現哪些與其他哪些變數最相關。這可以用圖 G 表示,它的節點表示變數,邊表示變數間的直接相關。通過計算 hat G =arg max p(G mid D) ,我們可以從數據中學習到這種圖結構。

1.3.4 矩陣填充

有時會缺失數據,也就是變數數值未知。我們可以推斷缺失數據的可信值,也被稱為矩陣填充。例子就是圖像修復,協同過濾,頻繁項集挖掘。

推薦閱讀:

數據挖掘有哪些常見的應用模型?
機器學習基石筆記11:邏輯斯蒂(Logistic)回歸 下
【翻譯】Brian2高級指導_狀態更新
一起來學西瓜書!(緒論)

TAG:機器學習 |