數學 · 決策樹（一）· 混亂程度

01-26

決策樹的、我所能夠講的數學部分，可能就是一些混亂程度的定義了。所謂一個東西的混亂程度，可以理解為那個東西有多亂。混亂程度越大，東西就越亂（廢話）。我們在做機器學習時，目的常常是為了預測某個東西屬於哪一類；如果很亂的話就很難分辨、反之就會清晰一些

（這個人在講什麼）

總之，我們希望我們要分類的東西越不亂越好，為此我們需要數學的定義。常用的混亂程度的定義有兩種

為簡潔（其實是懶），我打算只介紹離散的情況，連續的情況是同理可得的

（講道理我最討厭在答案裡面看到同理可得，但是自己寫的時候又特別喜歡 ( σ"ω")σ ）

它的定義是：

其中 $K$ 代表著隨機變數 Y 的可能取值個數， $p_{k}$ 表示 Y 取第 k 個值的概率。通常來說 log 的底取為 2，此時熵的單位叫比特（如果取 e 為底的話，單位就叫納特）這個定義意味著什麼呢？

可以證明，當
時， $H(Y)$ 達到極大值 $- log frac{1}{K}$ 、也就是 $log K$
那麼 $p_{1} = p_{2} = ... = p_{K} = frac{1}{K}$ 意味著什麼？意味著隨機變數 Y 取每一個類的概率都是一樣的、也就是說它亂得不行（喂）。換句話說就是它完全沒有規律可循，想要預測它的狀態只能靠運氣
我們的目的是想讓 Y 不亂，直觀上來說就是想讓 Y 有規律、從而方便我們預測。這翻譯成數學語言是什麼呢？就是 Y 取某一個類的概率特別大、取其它類的概率都特別小。極端的栗子就是 Y 取某個值的概率為 1、取其它值的概率為 0。帶入 $H(Y)$ 的定義，會發現此時 $H(Y) = 0$