【西瓜書】周志華《機器學習》學習筆記與習題探討（一）續

01-30

旅遊結束，發現知識記憶模糊了。

本篇將用西瓜書中的靈魂角色——西瓜，來對第一章的術語進行比喻性的解釋，以作為【探討（一）】的續篇。

一、基本概念

【模型】：從數據中得到的結果，如一棵判斷什麼是好瓜的決策樹。

eg：（此為該決策樹的一部分）

【模式】：局部性結果，如一條判斷好瓜的規則

eg：色澤青綠、根蒂蜷縮、敲聲濁響的是好瓜。

【學習演算法】：在計算機上從數據中產生「模型」的演算法。

二、數據相關

如圖所示，假定我們收集了一批西瓜的數據。

【記錄】：對任意一個西瓜的描述

eg：x1=（色澤=青綠；根蒂=蜷縮；敲聲=濁響），x2=（色澤=烏黑；根蒂=稍蜷；敲聲=沉悶），x3=（色澤=淺白；根蒂=硬挺；敲聲=清脆），......

【示例、樣本】：對一個西瓜的描述

eg：x1=（色澤=青綠；根蒂=蜷縮；敲聲=濁響）

【數據集】：D={x1,x2,x3...xm} 一組記錄的集合，一組「對西瓜的描述」的集合。（此為有m個示例的數據集，即有m個西瓜描述的集合。）

eg：D={x1=（色澤=青綠；根蒂=蜷縮；敲聲=濁響）,x2=（色澤=烏黑；根蒂=稍蜷；敲聲=沉悶）,x3=（色澤=淺白；根蒂=硬挺；敲聲=清脆）...xm}

【屬性、特徵】： $xid$ （i表示第i個樣本，d表示有d個屬性）

eg： $xi1$ ：色澤， $xi2$ ：根蒂， $xi3$ ：敲聲

【屬性值】：（第一個樣本的三個屬性的屬性值）

eg： $x11$ =青綠， $x12$ =蜷縮， $x13$ =濁響

【屬性空間、樣本空間、輸入空間】：以西瓜的三種屬性為三個坐標軸，建立坐標系得到的空間。（此圖系在假設屬性值為連續而非離散的基礎上繪製）

【特徵向量】：西瓜的三個屬性的屬性值可以在屬性空間坐標軸上找到屬於自己的坐標，由此找到空間中符合三個屬性值的一個坐標點。由於空間中每一個點對應一個坐標向量，故一個示例可以在d個屬性圍成的d維屬性空間中表示成一個向量。

三、學習過程

【學習、訓練】：從數據中學得模型的過程

eg：從西瓜樣本數據集中得到判斷好瓜的決策樹的過程

【訓練數據】：訓練過程中使用的數據

eg：為得到判斷好瓜的決策樹，使用了100000個西瓜的三個屬性值的記錄集合訓練樣本集合，這3×100000個屬性值就是訓練過程中使用的數據

【訓練樣本】：每一個樣本，即訓練採用的對一個西瓜的描述

eg：x1=（色澤=青綠；根蒂=蜷縮；敲聲=濁響）

【假設】：學得的判斷好瓜的決策樹對應了某種潛在的規律，（所以學得的模型，即判斷好瓜的決策樹，只是一種假設）

【真相、真實】：判斷好瓜決策樹對應的「客觀上判斷好瓜的規律」（可能與學習得到的判斷好瓜決策樹有出入）

【學習過程】：找出或逼近真相，即讓學習出來的「判斷好瓜的決策樹」（假設），能夠更加接近現實世界中判斷好瓜的客觀規律。（所以有時也將模型稱為學習器，看做學習演算法在給定數據和參數空間上的實例化。）

四、監督學習的預測原理

但是只有瓜的屬性值，而沒有關於瓜好壞的最終結果，是沒有辦法進行監督學習的。

這意味著，每當探測一個瓜的色澤、根蒂、敲聲之後，還需要把瓜切開吃一口，給出這個瓜是好是壞的最終結論。這樣才能積累到判斷瓜好壞的經驗。只觀察不檢驗，是無法積累經驗的。

（這是否意味著監督學習某種意義上是機器進行的經驗積累？）

【預測】：依靠機器學習得到的模型（如決策樹），對新示例進行結果判斷。

eg：通過好瓜決策樹，判斷老婆新買的瓜是否是好瓜。

【標記】：關於示例（對一個西瓜的描述）得到的結果的信息

eg：好瓜、壞瓜

【樣例】：擁有了標記信息的示例（對一個西瓜的描述），即（xi，yi），其中i表示第i個樣例

eg：（x1，y1）=（（色澤=青綠；根蒂=蜷縮；敲聲=濁響），好瓜）

【標記空間、輸出空間】：所有標記的集合。

當標記值是離散值的時候，Y={y1，y2，y3，...yj，...yn}（此時y的序號j並不代表第幾個樣例，而代表標記的第幾個取值，n表示標記可以取n個值）在好瓜與壞瓜的問題上，n=2，即標記可以取兩個值。

eg：Y={好瓜，壞瓜}

當標記值是連續值的時候，Y={yi=f(xi)}（此時yi則代表在取序號為i的示例xi時，標記的取值示例xi做自變數的函數f(xi)），如對西瓜的色澤、根蒂、敲聲進行量化的統計，則可歸納出某種函數f(xi)，用以表達西瓜的成熟程度值，從而判斷西瓜的好壞。

故如上可知：

【分類】：預測的是離散值。

eg：判斷瓜的好壞。

【回歸】：預測的是連續值。

eg：判斷瓜的成熟度。

【正類】eg：好瓜。【負類】eg：壞瓜。

【多分類】eg：沙瓤瓜、水瓤瓜、半沙半水瓤瓜。。。。

【測試】：預測的過程。

eg：「通過好瓜決策樹，判斷老婆新買的瓜是否是好瓜」的過程。

【測試樣本】：被預測的樣本。

eg：老婆買回來的瓜的屬性的描述。

五、無監督學習的原理

【聚類】：將訓練集中的瓜分為若干組。

eg：將訓練決策樹時所用的100000個西瓜分為：本地瓜、北方瓜、南方瓜、進口瓜等。

【簇】：每組稱為一個簇。

eg：本地瓜、北方瓜、南方瓜、進口瓜，是四個簇。

注意：這些簇，並非主動劃分，而是自動劃分。也就是說，無監督學習只負責分類，不負責解釋每個類是什麼。意思是，這100000個瓜，被無監督學習分為了四類。分好之後，我一看，發現它分的第一類是本地瓜，第二類是北方瓜，第三類是南方瓜，第四類是進口瓜。

但是，還有可能分的這四類是：深色瓜、較深色瓜、較淺色瓜、淺色瓜。

簇的含義是在分類後得知的。

當然，我當然可以說我就要讓它按地域給我分出這四類來。

只不過結果卻有可能是按顏色分了四類。

那麼無監督學習如何分出好瓜和壞瓜？

理論上就需要調整一系列參數，讓聚類演算法可以剛好將好瓜和壞瓜通過聚類區分為兩類。

六、機器學習的目標

機器學習的目標是使學得的模型可以更好的適用於「新樣本」，這和學習的過程——「找出或逼近真相」的目標一致。

【泛化】：學得模型適用於新樣本的能力。

泛化能力一定程度上體現出假設與真相之間的差距。

假設樣本空間的全體樣本服從一個未知分布?。

一般而言，訓練樣本越多，得到關於D的信息就越多，越有可能通過學習獲得強泛化能力的模型。

七、假設空間（結合三看）

【假設空間】：機器學習中所有的假設組成的空間。

eg：每一種假設代表著一種判斷是否為好瓜的決策樹。

假設空間就是這群決策樹組成的空間。

【學習過程2】：前面提到學習過程是：

找出或逼近真相，即讓學習出來的「判斷好瓜的決策樹」（假設），能夠更加接近現實世界中判斷好瓜的客觀規律。

但如果眾多假設形成了假設空間，則逼近真相的好方法，就是在假設空間中，對所有假設進行搜索，找到與訓練集匹配的假設，則其會最為逼近真相。

【版本空間】：當找到的與訓練集匹配的集合很多時，將這些假設另外組成一個集合，就是版本空間了。

eg：判斷好瓜，一共有100棵決策樹，這100棵決策樹組成了一個假設空間。學習的過程是在這100棵決策樹組成的假設空間中，通過搜索找到與這100000個瓜的好壞相匹配的決策樹，從而逼近真相。經過搜索，能夠匹配這100000個瓜的決策樹只有10棵。故這10棵決策樹的集合就是一個版本空間。

這次通過更具體的例子，應該讓西瓜書中描述的機器學習的基本原理更加清晰了，如果有什麼錯誤之處，歡迎各位及時指正，我會儘快作出說明修改。

西瓜書系列合集：

【西瓜書】周志華《機器學習》學習筆記與習題探討（一）

【西瓜書】周志華《機器學習》學習筆記與習題探討（一）續

【西瓜書】周志華《機器學習》學習筆記與習題探討（二）①

【西瓜書】周志華《機器學習》學習筆記與習題探討（二）②