DeepLearning筆記:Linear regression 線性回歸
回顧:
00:DeepLearning筆記:Neural Networks 神經網路阿扣
:今天帶你了解一下線性回歸。
阿特
:?? 聽起來就不是什麼容易懂的東西……為什麼要了解線……什麼,線性回歸呢?
阿扣
:什麼機器學習啊深度學習啊,最終目的之一不就是根據已有數據做出預測,回歸和分類都是「做預測」的主要手段。在下面這張圖中找找看,線性回歸在機器學習中的位置:
阿特
:如果說目的都是做「預測」,回歸分析和分類有什麼不同呢?
阿扣
:回歸得到預測的具體數值,比如股市的行情、未來的氣溫值。而分類得到一個「聲明」,或者說對數據打上的標籤。
阿特
:那什麼是線性回歸呢?
阿扣
:線性回歸是最基礎的回歸類型,它的定義是這樣:
在統計學中,線性回歸(Linear regression)是利用線性回歸方程的最小平方函數,對一個或多個自變數和因變數之間關係建模的一種回歸分析。這種函數是一個或多個回歸係數的模型參數的線性組合。
阿特
:好吧,看不懂……不過我主要不明白的是「回歸」的意思,要回哪裡哦……
阿扣
:初中時學的解方程還記得吧?方程左邊有 X,求方程右邊的 Y: ax + b =y 。
阿特
:這個還是記得的。
阿扣
:回歸分析假設 X 和 Y 之間是有姦情哦不對是有關係的,用於了解只有一個自變數 X 時,因變數 Y 的變化。
- 鬼話版:回歸分析用來估計模型的參數,以便最好地擬合數據
- 人話版:「回歸」的目的呢,就是找出一個最能夠代表所有觀測數據的函數,來表示 X 和 Y 的關係。這個函數只有一個變數,所以是類似這樣的一條直線:
阿特
:好像我記得那種方程在坐標軸上就是用一條直線來表示。不過怎麼基於這條直線做預測呢?
阿扣
:其實不是基於這條線,而是 「找出」這條最符合 X 和 Y 的關係的線 (line of best fit),認定這就是它們之間的「關係」,然後去做預測。
我們先來用符號把這個 X 和 Y 的關係表達式寫出來。A 表示我們手上有的數據集,比如你每天的能量攝入和體重值,哈哈哈,然後可以用它來預測你什麼時候會變成個胖紙~
阿特
:緊臟……
阿扣
:來看看這張圖,我告訴你每個字母代表什麼:
X
是每天的能量攝入,y
是體重。我們想預測你的未來體重 y? (給字母加個帽子一般表示它的預測值),於是用 能量輸入 乘以一個權重(weight) W
,加上一個偏置項(bias) b
,就是計算體重的函數了。
WX+b=y
阿特
:好像蠻簡單的。
阿扣
:是啊。這個式子以後我們還會無數次看到,是老朋友來的。
關於回歸分析,再多說兩句。
阿特
:我有預感不止 20 句……
阿扣
:它有三個主要用途:
- 因果分析:確定自變數對因變數的影響的強度。比如計算劑量和效應,銷售和營銷支出,年齡和收入之間的關係。
- 預測影響:預測影響或變化的影響,即因變數隨著一個或多個自變數的變化而變化多少。典型的問題是,「增加一個單位 X, Y 能增加多少?」
- 趨勢預測:預測趨勢和未來價值。比如,「從現在起6個月,黃金的價格是多少?」,「任務 X 的總體成本是多少?」
阿特
:好像很強大,那它有什麼缺點呢?
阿扣
:有兩個主要的缺點:
- 只適用於本身是線性關係的數據
- 對 outliner 敏感
比如上圖右上角的幾個點,偏離平局值比較多,我們叫 outliner。出現這種情況,我們可以試試其他的回歸分析類型,或者放棄回歸分析,用其他的演算法了。
如果需要預測的結果依賴於多個變數,可以用多元線性回歸,比如:
我們用一個三維平面來表示這個二元線性回歸:
阿特
:那麼多回歸類型,不會都要掌握吧?
阿扣
:嗯,我們接觸比較多的是邏輯回歸(Logistic regression)。下回給你講講邏輯回歸要用到的激活函數吧。
阿特
:??
Ref
迴歸分析 | Wikiwand線性回歸 | WikiwandWhat is Linear Regression? - Statistics Solutions
推薦閱讀:
※對於一個可以窮舉的問題,比如五子棋,深度學習得到的模型和窮舉的演算法有啥異同?
※怎麼看今天Amazon發布的16 GPU的p2.16xlarge EC2實例?
※PyTorch 有哪些坑/bug?
※RNN神經網路訓練過程中weight幾乎不更新,只有bias更新?
TAG:深度学习DeepLearning | 数据科学 | 机器学习 |