機器學習入門 - 邏輯回歸
09-08
機器學習入門 - 邏輯回歸
來自專欄想用數據搞點事情
邏輯回歸
1. 邏輯回歸的定義
邏輯回歸(Logistic Regression)是用於處理因變數為分類變數的回歸問題,常見的是二分類或二項分布問題,也可以處理多分類問題,它實際上是屬於一種分類方法。
二分類問題的概率與自變數之間的關係圖形往往是一個S型曲線,如下圖所示:
- 分類變數:是說明事物類別的一個名稱,其取值是分類數據。如「性別」就是一個分類變數,其變數值為「男」或「女」;「行業」也是一個分類變數,其變數值可以為「零售業」、「旅遊業」、「汽車製造業」等。
2. 分類與回歸的區別
邏輯回歸不是回歸,而是分類
關於分類與回歸問題的區別,可以見下圖所示:
3. 在Python中實現邏輯回歸
- 建立數據集,並對數據集進行可視化
- 將數據集劃分為訓練數據和測試數據
- 建立邏輯回歸模型
- 評估模型
(模型準確率為25%,可能原因為數據量太少)
- 通過建立的模型,預測概率
(可以看出預測的概率值為99.5%)
後續
上一篇文章《機器學習入門 - 簡單線性回歸》中提及到的關於歌曲推薦等相關問題,在這一次的學習過程中,又得到了進一步的剖析。下一次的學習進程,將會把之前學到關於機器學習入門的相關知識來進行一次實踐,幫助我更好的理解以及加深印象。
推薦閱讀:
※國防科大登上SQuAD 2.0榜首,機器閱讀能力再進化|論文
※《機器智能的未來》系列三:Brendan Frey--當深度學習遇上基因生物學 | 將門推薦
※應用logistic回歸模型對SoftDrink數據集進行分析
※直觀理解正則化
※利用 gplearn 進行特徵工程