機器學習中的邏輯回歸到底是回歸還是分類?能否用邏輯回歸實現連續目標的預測,比如說時間序列?怎麼實現?
01-05
最近在學習邏輯回歸,一直認為邏輯回歸適用於離散目標,比如分類問題,尤其是二分類,但是最近看了一篇ITS的論文,裡面用邏輯回歸對時間序列做預測,難道邏輯回歸也能處理連續目標?很困惑,如果可以該怎麼做,求大神指導,謝謝!
logistic regression是這麼假設的:
數據服從概率為p的二項分布,並且logit(p)是特徵的線性組合。
二項分布的取值就是兩個,0,1,所以如果不修改假設,直接就把logistic regression用於連續值的預測肯定是不合理的,因為沒有哪個正常的連續取值的東西是服從二項分布的……首先認識邏輯回歸~
我來簡單談下邏輯回歸為什麼用來分類。邏輯回歸核心是一個回歸函數沒問題,但是為什麼最終不是回歸而可以用於分類呢?兩方面原因:1. 我們訓練數據用的是帶有二分類標籤(0/1)的數據
2. 我們在尋找最佳模型的過程確實是一個「擬合」的過程,但是因為我們用了sigmod函數變換後去做的「擬合」和預測的,這個過程等價於我們找邏輯回歸內部區分正負(&>0正樣本,&<0負樣本)的線性函數f(x)。我們再來看這個內部函數,實際上等價於我們找到了的樣本分類邊界f(x)=0。我們整個過程就是回歸了這個分類邊界!
邏輯回歸的原始輸出是概率,本來就是個連續變數,做分類的時候是卡了個閾值,一般為0.5,所以如果可以方便的將y歸一化到0到1之間,邏輯回歸當然可以處理連續變數,不過參數估計時方法要變一下,用簡單的最小二乘應該更合理一些。當然還有一個思路,題主可參考下support vector regression的實現。
佔個坑
從Andrew Ng的課上來看,邏輯斯諦回歸是一種分類方法,之所以命名為回歸是有一些歷史原因(不明。。)
跟線性回歸的連續性結果輸出不同,邏輯回歸是通過判斷h(x)的(0,1)之間的與0.5的大小來決定哪一類的概率以及大小的。
從原始cost function的設置來看,是分類的設定之後再整合的。似乎不存在連續性的設置方法。具體情況還需要再查些資料0.0
我還會回來的。二分類。
我有點不太認同,之前 @魯靈犀 的回答。我認為邏輯回歸,之所以叫做邏輯回歸,就是因為我認為P(Y|X)時服從二項分布或多項分布的。處理連續值,應該叫做多重線性回歸,損失函數使用square error。
可處理。
邏輯回歸是神經網路的特例(沒有hidden layer),本質上都是從輸入空間到輸出空間的函數擬合。
推薦閱讀:
※怎樣判斷平面上兩個扇形是否有重疊?
※怎麼學好數據結構?
※人工智慧正在邁向技術奇點嗎?如果是,這對人類是好事還是壞事?
※如何簡化包圍多邊形?