Hulu機器學習問題與解答系列 | 二十：PCA 最小平方誤差理論

05-23

「PCA 最小平方誤差理論」

[場景描述]

經歷了強化學習、深度學習、集成學習一輪輪面試題的洗禮，我們是否還記得心底對宇宙，對世界本源的敬畏與探索之心？時間回溯到40多天前，我們曾經從宇宙空間出發，討論維度，從維度引到機器學習，由PCA探尋降維之道，傳送門：Hulu機器學習與問答系列第六彈-PCA演算法。彼日，我們從最大方差的角度解釋了PCA的原理、目標函數和求解方法。今夕，我們將從最小平方誤差之路，再次通向PCA思想之核心。

[問題描述]

觀察到其實PCA求解的是最佳投影方向，即一條直線，這與數學中線性回歸問題的目標不謀而合，能否從回歸的角度定義PCA的目標並相應地求解問題呢？

背景知識：線性代數

[解答與分析]

我們還是考慮二維空間這些樣本點，最大方差角度求解的是一條直線，使得樣本點投影到這條直線上的方差最大。從求解直線的思路出發，很容易聯想到數學中的線性回歸問題，其目標也是求解一個線性函數使得對應直線能夠更好地擬合樣本點集合。如果我們從這個角度定義PCA的目標，那麼問題就會轉化為一個回歸問題。

順著這個思路，在高維空間中，我們實際上是要找到一個d維超平面，使得數據點到這個超平面的距離平方和最小。對於一維的情況，超平面退化為直線，即把樣本點投影到最佳直線，最小化的就是所有點到直線的距離平方之和，如下圖所示。

第一項xkTxk與我們選取的W無關，是個常數。我們利用剛才求出的投影向量表示將第二項和第三項分別繼續展開

其中ωiTxk和ωjTxk表示投影長度，都是數字。且i≠j時，ωiTωj＝0，因此上式的交叉項中只剩下d項。

我們要最小化的式子即對所有的k求和，可以寫成

如果我們對W中的d個基ω1, ω2, ..., ωd依次求解，就會發現和上一節中方法完全等價。比如當d＝1時，我們實際求解的問題是

這個最佳直線ω與最大方差法求解的最佳投影方向一致，即協方差矩陣的最大特徵值所對應的特徵向量，差別僅是協方差矩陣∑的一個倍數，以及一個常數偏差，但這並不影響我們對最大值的優化。

[總結與擴展]

至此，我們從最小平方誤差的角度解釋了PCA的原理、目標函數和求解方法，不難發現，這與最大方差角度殊途同歸，從不同的目標函數出發，得到相同的求解方法。

下一題預告

【分類、排序、回歸模型的評估】

[場景描述]

在模型評估過程中，分類問題、排序問題、回歸問題往往需要使用不同的評估指標進行評估。但在諸多的評估指標中，大部分指標只能片面的反映模型一部分的能力，如果不能合理的綜合運用評估指標，不僅不能發現模型本身的問題，甚至會得出錯誤的結論。下面以hulu的業務為背景，假想了幾個模型評估的場景，看看大家能否管中窺豹，發現指標選擇或者模型本身的問題。

[問題描述]

1. 準確率（Accuracy）的局限

2. 精確率（Precision）和召回率（Recall）的權衡

3. 均方根誤差（Root Mean Square Error，RMSE）的「意外」

歡迎留言提問或探討~ 你可以關注並進入「Hulu」微信公號，點擊菜單欄「機器學習」獲得更多系列文章。下期再見。

http://weixin.qq.com/r/_EMrM0TEAhl9rQBQ9xbq (二維碼自動識別)