DeepLearning筆記:Linear regression 線性回歸

回顧:

00:DeepLearning筆記:Neural Networks 神經網路zhuanlan.zhihu.com圖標

阿扣:今天帶你了解一下線性回歸。

阿特:?? 聽起來就不是什麼容易懂的東西……為什麼要了解線……什麼,線性回歸呢?

阿扣:什麼機器學習啊深度學習啊,最終目的之一不就是根據已有數據做出預測,回歸和分類都是「做預測」的主要手段。在下面這張圖中找找看,線性回歸在機器學習中的位置:

阿特:如果說目的都是做「預測」,回歸分析和分類有什麼不同呢?

阿扣回歸得到預測的具體數值,比如股市的行情、未來的氣溫值。而分類得到一個「聲明」,或者說對數據打上的標籤

阿特:那什麼是線性回歸呢?

阿扣:線性回歸是最基礎的回歸類型,它的定義是這樣:

在統計學中,線性回歸(Linear regression)是利用線性回歸方程的最小平方函數,對一個或多個自變數和因變數之間關係建模的一種回歸分析。這種函數是一個或多個回歸係數的模型參數的線性組合。

阿特:好吧,看不懂……不過我主要不明白的是「回歸」的意思,要回哪裡哦……

阿扣:初中時學的解方程還記得吧?方程左邊有 X,求方程右邊的 Y: ax + b =y 。

阿特:這個還是記得的。

阿扣:回歸分析假設 X 和 Y 之間是有姦情哦不對是有關係的,用於了解只有一個自變數 X 時,因變數 Y 的變化。

  • 鬼話版:回歸分析用來估計模型的參數,以便最好地擬合數據
  • 人話版:「回歸」的目的呢,就是找出一個最能夠代表所有觀測數據的函數,來表示 X 和 Y 的關係。這個函數只有一個變數,所以是類似這樣的一條直線:

阿特:好像我記得那種方程在坐標軸上就是用一條直線來表示。不過怎麼基於這條直線做預測呢?

阿扣:其實不是基於這條線,而是 「找出」這條最符合 X 和 Y 的關係的線 (line of best fit),認定這就是它們之間的「關係」,然後去做預測

我們先來用符號把這個 X 和 Y 的關係表達式寫出來。A 表示我們手上有的數據集,比如你每天的能量攝入和體重值,哈哈哈,然後可以用它來預測你什麼時候會變成個胖紙~

阿特:緊臟……

阿扣:來看看這張圖,我告訴你每個字母代表什麼:

X 是每天的能量攝入,y 是體重。我們想預測你的未來體重 y? (給字母加個帽子一般表示它的預測值),於是用 能量輸入 乘以一個權重(weight) W,加上一個偏置項(bias) b,就是計算體重的函數了。

WX+b=y

阿特:好像蠻簡單的。

阿扣:是啊。這個式子以後我們還會無數次看到,是老朋友來的。

關於回歸分析,再多說兩句。

阿特:我有預感不止 20 句……

阿扣:它有三個主要用途:

  • 因果分析:確定自變數對因變數的影響的強度。比如計算劑量和效應,銷售和營銷支出,年齡和收入之間的關係。
  • 預測影響:預測影響或變化的影響,即因變數隨著一個或多個自變數的變化而變化多少。典型的問題是,「增加一個單位 X, Y 能增加多少?」
  • 趨勢預測:預測趨勢和未來價值。比如,「從現在起6個月,黃金的價格是多少?」,「任務 X 的總體成本是多少?」

阿特:好像很強大,那它有什麼缺點呢?

阿扣:有兩個主要的缺點:

  • 只適用於本身是線性關係的數據
  • 對 outliner 敏感

比如上圖右上角的幾個點,偏離平局值比較多,我們叫 outliner。出現這種情況,我們可以試試其他的回歸分析類型,或者放棄回歸分析,用其他的演算法了。

如果需要預測的結果依賴於多個變數,可以用多元線性回歸,比如:

我們用一個三維平面來表示這個二元線性回歸:

阿特:那麼多回歸類型,不會都要掌握吧?

阿扣:嗯,我們接觸比較多的是邏輯回歸(Logistic regression)。下回給你講講邏輯回歸要用到的激活函數吧。

阿特:??

Ref

迴歸分析 | Wikiwandwww.wikiwand.com圖標線性回歸 | Wikiwandwww.wikiwand.com圖標What is Linear Regression? - Statistics Solutionswww.statisticssolutions.com


推薦閱讀:

對於一個可以窮舉的問題,比如五子棋,深度學習得到的模型和窮舉的演算法有啥異同?
怎麼看今天Amazon發布的16 GPU的p2.16xlarge EC2實例?
PyTorch 有哪些坑/bug?
RNN神經網路訓練過程中weight幾乎不更新,只有bias更新?

TAG:深度学习DeepLearning | 数据科学 | 机器学习 |