「猜你喜歡」—邏輯回歸分類

02-24

邏輯回歸分析現在廣泛引用於各類網路零售，音樂app等平台，通過對用戶行為數據的整理分析，個性化的向用戶推薦產品及服務。今天我們就來聊聊「猜你喜歡」背後的計算機技術。

本文章涉及的主要問題：

機器學習分類演算法——QQ音樂是如何判斷用戶喜歡那些歌曲的
什麼是邏輯回歸
用Python實踐邏輯回歸
分類和回歸的區別

機器學習分類演算法——QQ音樂是如何判斷用戶喜歡那些歌曲的

首先，我們來看看人的大腦是怎麼判斷我們是否喜歡某一首歌

第一步，在我們聽到某一到音樂後，實際上我們的大腦會接收這首音樂的某些特徵，也就是這首歌的數據屬性。他們可能是音樂的強度，歌曲的節奏，或者聽歌的時長。

第二步，我們的大腦接收到這些特徵後，會將這首歌處理為兩個類別中的其中一個：like or dislike，這裡的類別就是標籤。而特徵就是事物（數據）的屬性，通過這些屬性，可以代表這些數據的特點。標籤就是對數據的預測，比如我將《Fly me to the moon》的數據特徵輸入，得出的標籤，也就是對數據的預測就會是：like

在有了上面的闡述後，我們來看看機器學習是如何進行分類的

如圖，假設現在我有一組QQ音樂的歷史數據，上面有音樂的節奏，強度等特徵，並且記錄了我是否喜歡這首歌（在實際中一般是用用戶的播放次數判斷的）。我們將這組數據提供給一個機器學習演算法，然後它就會學習出一個關於歌曲的特徵與我是否喜歡這首歌曲的模型。下次當新歌發布時，QQ音樂會把那首歌放入到訓練好的模型中，模型會預測我是否喜歡這首歌的結果。有了這個模型，系統會預測出我喜歡哪些歌曲並進行推薦。讀入的數據數據也多，模型會訓練得更準確，並且做出錯誤預測後會自動修正。

那麼，機器學習模型到底是怎麼做到的呢？

這裡為了方便起見，我們只取兩個特徵，三個數據。得到數據組後，我們先要將其分為訓練數據和測試數據。

訓練數據用於構建模型

測試數據用於檢驗模型的準確率

二維表格發現不了特徵之間的關係，如下圖，用訓練數據繪製散點圖，圖中黃色的數據點為喜歡的歌曲，綠色的數據點為不喜歡的歌曲，箭頭所指的數據點表示節奏和強度適中。

假設現在有一首新歌曲，用紅色的數據點表示，那我們如何判斷這首歌我們是否喜歡呢？

機器學習模型可以用決策面來解決這些分類問題，決策面通常位於倆個不同類之間的某個位置，有了決策面，當有新數據讀入時，就可以預測出是哪個分類，如下圖

圖中紅色點落在了黃色部分的區域內，所以屬於喜歡聽的曲子

所以，面對分類問題，機器學習的工作是將訓練數據的特徵和標籤轉化成決策面，然後對數據進行預測。

通常而言，我們使用正確率來衡量這個機器學習模型的好壞

如何判斷分類模型的準確性（精度）？

正確率即為給模型輸入測試數據後，模型給出的預測結果中，正確的分類結果個數占這些測試數據集中的所有數據的比率，可以通過測試數據集得到。