機器學習入門(2):從QQ音樂推薦系統到邏輯回歸

  • 引子:QQ音樂推薦系統
  • 決策面
  • 邏輯回歸
  • 案例分析

一、引子:QQ音樂推薦系統

打開我的手機APP音樂,查看今日推薦歌單。歌手是最近常聽的幾位,QQ音樂還是有點懂我。

當我聽到一首歌曲,我會從節奏、強度等特徵判斷是否喜歡。

在機器學習中,節奏、強度就是特徵,喜歡or不喜歡是標籤。

QQ音樂模擬人的決策過程,先從你的歷史歌單中學習歌曲的特徵(節奏、強度等),並將這些特徵值輸入到模型,模型就會建立特徵和標籤的關係。當下一首歌曲出現時,特徵值會輸入到模型中,從而返回喜歡or不喜歡,進而進行推薦。以上,這是QQ音樂的推薦系統的思路,當然實踐會複雜很多。

二、決策面(decision surface, D.S.)

我們再深入探討上述的案例,模型判斷歌曲喜歡or不喜歡是一個二分類問題。問題來了,喜歡or不喜歡有沒有一個明確是界限。此時,我們引入決策面的概念。上述案例中,只有兩個特徵:節奏和強度。給每一首歌的節奏和強度賦值,然後在二維坐標中畫出散點圖。黃色點代表喜歡,綠色點代表不喜歡。然而,紅色點接近中間,如何判斷呢?這時,如果有一個決策面,左邊的為喜歡,右邊的為不喜歡,那問題就顯而易見了。

在機器學習中,處理分類問題的關鍵就是,將測試數據的標籤和特徵轉化成一個決策面。機器學習中,有很多演算法可以求得決策面。

如何預測模型的準確率,就要用正確率這個指標,正確率=正確分類個數/數據總數。注意,這裡的數據集都是來自測試數據。

三、邏輯回歸(logistic regression)

邏輯回歸是一個典型的二分類問題,由於名字有誤導性,它並非是一個回歸問題。邏輯回歸的標籤只有兩種類型,一般用0和1表示。它的核心是邏輯函數:

可以看出,通過邏輯函數,可以把y值的範圍控制在0到1之間。當y≥0.5時,代表特徵1,y<0.5時,代表特徵0。

四、案例分析

案例:研究考試數據和考試是否能通過的關係

可以看出,測試數據的正確率為1,說明全部預測準確。

輸入3小時,可以看到未通過的概率為44%,通過的概率為56%。

以上就是此次的內容,請走過路過的親多對支持!

推薦閱讀:

解讀《大數據下的數據分析平台架構》
論文丨國內主要數據網址:
利用numpy和pandas進行一維和二維數據分析。
從常識出發,解讀信息流廣告數據分析的五大亂象
而立之年零基礎轉行數據分析來得及嗎?

TAG:數據分析 | 機器學習 |