如何以數據有效驅動產品

數據驅動產品之knn 演算法

在互聯網行業中常常有利用數據分析或者數據挖掘的結論來應用到產品中,

驅動產品的優化, 提升產品的各項KPI 指標, 在數據挖掘和數據分析的背後會涉

及到一些數據挖掘或者機器學習的演算法, 本文主要是knn 演算法原理的介紹, 以

及在它在互聯網行業中的具體應用,後續會介紹這個演算法的具體實現(R 語言和

python 語言)

knn 演算法原理:

現在假如有一個樣本, 樣本中的每一個叫做個體, 我們已經知道這些個體所

屬的類別, 現在有一個新的未知類別的個體, 我們可以通過計算它與樣本中所有

個體的相似距離, 然後找出與它具體最小的k 個個體, 這k 個個體最多的類別就

是這個新的個體的預測的類別。

演算法步驟:

1)計算測試數據與各個訓練數據之間的距離

計算具體之前需要對數據中的每一個屬性進行數據歸一化, 防止數據過大對距

離的計算產生影響

數據歸一化:x* = (x - x_mean)/(x_max - x_min),

x_mean 表示數據的均值, x_max 表示數據的最大值, x_min 表示數據的最小值

例如有一個屬性的取值為: 20, 40, 80, 100

則首先計算平均值: (20+30+80+100)/4=60

最小值:20 最大值100

則歸一化後每個值為:

(20-60)/(100-20)=-0.5

(40-60)/(100-20)=-0.25

(80-60)/(100-20) = 0.25

(100-60)/(100-20) =0.5

計算各體之間的距離公式如下:

2)按照距離的遞增關係進行排序;

3)選取距離最小的K 個點;

4)確定前K 個點所在類別的出現頻率;

5)返回前K 個點中出現頻率最高的類別作為測試數據的預測分類

在互聯網實際情景中的應用:

1. 需求背景

現在某app 上了一個歌詞製作的功能, 每天會有一定的用戶去使用歌詞制

作的功能, 製作的歌詞會經過外包團隊的審核, 來判斷這個歌詞是否能夠投入使

用, 現在根據一段時間的審核,已經能夠根據製作歌詞質量的好壞來將整體歌詞

製作的用戶細分為優質用戶, 即製作的歌詞數目又多質量又高, 一般用戶, 製作

的歌詞數和質量都屬於普通的情況, 垃圾用戶, 即製作的歌詞數目不多質量又

差, 業務方需要提高整體的歌詞製作質量所以希望能夠根據現有的優質用戶具

有的特徵, 去發現更多這種類似的用戶, 來不斷提高整體的UGC 歌詞

2. 需求溝通

數據分析師根據對業務的理解與業務方溝通, 探討可能決定一個歌詞製作

的用戶是否是優質用戶可能具有的特徵, 以及業務方根據業務的熟悉和敏感度

給出的分析建議,然後再次分析這個需求的需求目的以及需求執行的可行性(是

否有支持的數據,)

3. 數據探索

根據溝通後的結論, 數據分析師從數據倉庫提取相對應的數據, 即提取三類

用戶的一些屬性特徵及其用戶ID,如下圖所示:

其中userid 指的是用戶的賬號,

song_play_7 指的是過去7 天的平均播放量,

lyric_activity_7 值的是過去7 天的對歌詞有效活躍行為: 如歌詞搜索, 歌詞報

錯, 歌詞分享, 歌詞翻譯, 歌詞改錯等

type: 代表用戶是屬於哪一種類型的用戶: 優質2 , 一般1 垃圾0

本次例子假如是沒有缺失值和異常值, 一般來說要對數據中的缺失值和異

常值進行處理。比如去掉異常值, 對缺失值進行均值或者眾數來代替。

4. knn 演算法預測一個新用戶是否是屬於優質用戶

假如已經知道這個用戶的播放量為140 報錯次數為3 歸一化處理後為:

0.932203,0.5

首先對上面的數據進行歸一化處理:

計算這個新的用戶和圖中的每一個用戶的歐式距離為:

((0.932203- 0.762711864)^2+(0.5-0.833333333)^2) 的開方根

依次計算結果如下:

則最小距離的前三位分別為0.373948311, 1.16863508, 1.537825481 他們對應

的type 都是2 即優質用戶, 則可以判斷這個新用戶為優質用戶。

0.373948311

1.16863508

1.537825481

3.504101344

4.363063227

5.500652804

6.544595038

7.392345678

8.515194827

類似的大盤的所有的用戶都可以採取這種方式來找出優質用戶進行拉新。

5. 結果反饋模型落地

將這個模型的預測過程和結果與業務方溝通, 並且安排模型落地, 並監控上

線之後的效果, 不斷改善模型

6. 可能具有的成果:

根據這個模型業務方發現了優質用戶所具有的特徵屬性, 通過運營的方式

拉取很多優質用戶, 大大提高整體的優質歌詞的比例, 提高KPI 指標

推薦閱讀:

上海雲棲大會,阿里雲都重磅發布了啥?重要消息一文薈萃!
呦呵~數據上圖新功能:圖標、紋理、更多分享方式
從Google預測流感引發的大數據反思
鹿豹座平台(1.1-1.7)大數據新聞每周精選
大數據的一些基本知識小結(1)

TAG:數據分析 | 大數據 | 數據挖掘 |