機器學習入門 - 邏輯回歸

機器學習入門 - 邏輯回歸

來自專欄想用數據搞點事情

邏輯回歸

1. 邏輯回歸的定義

邏輯回歸(Logistic Regression)是用於處理因變數為分類變數的回歸問題,常見的是二分類或二項分布問題,也可以處理多分類問題,它實際上是屬於一種分類方法。

二分類問題的概率與自變數之間的關係圖形往往是一個S型曲線,如下圖所示:

  • 分類變數:是說明事物類別的一個名稱,其取值是分類數據。如「性別」就是一個分類變數,其變數值為「男」或「女」;「行業」也是一個分類變數,其變數值可以為「零售業」、「旅遊業」、「汽車製造業」等。

2. 分類與回歸的區別

邏輯回歸不是回歸,而是分類

關於分類與回歸問題的區別,可以見下圖所示:

3. 在Python中實現邏輯回歸

  • 建立數據集,並對數據集進行可視化

  • 將數據集劃分為訓練數據和測試數據

  • 建立邏輯回歸模型

  • 評估模型

(模型準確率為25%,可能原因為數據量太少)

  • 通過建立的模型,預測概率

(可以看出預測的概率值為99.5%)

後續

上一篇文章《機器學習入門 - 簡單線性回歸》中提及到的關於歌曲推薦等相關問題,在這一次的學習過程中,又得到了進一步的剖析。下一次的學習進程,將會把之前學到關於機器學習入門的相關知識來進行一次實踐,幫助我更好的理解以及加深印象。

推薦閱讀:

國防科大登上SQuAD 2.0榜首,機器閱讀能力再進化|論文
《機器智能的未來》系列三:Brendan Frey--當深度學習遇上基因生物學 | 將門推薦
應用logistic回歸模型對SoftDrink數據集進行分析
直觀理解正則化
利用 gplearn 進行特徵工程

TAG:機器學習 | 數據分析 | Python |