從遊戲到用戶分類

05-07

困境

最近在做Antispam的過程中，遇到了這樣一個困境：當策略調整的太嚴格的時候，就容易傷害到很多正常用戶，當策略太寬鬆的時候，就很容易漏掉很多垃圾用戶，不過這樣一個問題也是在早期就已經預料到隨著spammer的成長必然會遇到的問題，只不過沒想到會來的這麼快，於是我們就開始想著，如何解決這種困境。

思路

解決這個問題的思路有兩個

利用站上的業務數據，比如贊同感謝神馬的給用戶分級；

利用用戶自己的行為，給用戶分類。

第一個思路牽涉到的場景和業務相關性很強，每個網站使用起來參考性不大，但是第二個思路卻是一個通用性的解決方法，我們就來聊聊第二個思路。

利用用戶自己的行為給用戶分類，廣義的分類方法在機器學習上可分為監督方法和無監督方法，兩種的區別在於，監督方法需要事先對於訓練集給出標準答案，然後將標準答案輸入到學習演算法中，然後建立模型，處理後續的輸入方法；而無監督學習，是事先沒有標準答案，利用個體之間在輸入數據上的相近程度，自然聚成一類。

通過以上的描述，可能無監督的學習方法更適合我們，因為我們實現不知道用戶有幾類，也沒有標準答案。那麼問題就來了，目前大多數聚類演算法，原理大多數都是利用空間點中的相近程度，將點分成若干類，差別可能是，有的用的是歐幾里得距離，有的用的是餘弦距離，有的用的是空間密度分布而已，那麼擺在我們面前一個急需解決的問題就是，如何將用戶的行為量化，也就是映射到一個n維空間中，用來對用戶進行聚類呢？

啟發

為了解決這個問題我也是想了很久，有一天實在無果，就玩起了一個手游，養成類遊戲，大題思路就是一群人闖關，然後過程中給不同的人加點，然後這個英雄就會有不同的技能。玩的正無聊，我妹子問了我一句，這些英雄，你怎麼知道把誰安排到前面，誰放在後面啊。我說，有的英雄體力高，可以放在前面擋著，有些英雄魔法高，就只適合放在後面作為遠程攻擊了，也許是聽著無心，言者有意吧，我突然想到這麼一個場景。

當一個英雄剛剛產生的時候，他在體力和魔法上的點數是一樣，這個時候你分不清他是戰士還是魔法師，但是當遊戲不斷進行，你購買了各種裝置，每種裝置在體力和魔法上加成都不一樣，慢慢的，有的英雄體力更強，這個時候就比較適合物理戰鬥，有的魔法值更強，就適合魔法攻擊，自然就分成了兩類。

英雄的分類方法，是按照體力值和魔法值不同，分成兩類，那麼很自然的就想到，對於不同功能的使用偏好，是不是我們分類用戶的思路呢？那麼又怎麼衡量一個用戶的偏好呢？就是利用用戶在不同功能模塊上被加成的點數，我們可以按照用戶訪問每個模塊的次數不同，來定義這個用戶的習慣，進而根據用戶的習慣，決定這個用戶的類型。一下子思路就清晰了。

下面就用一個demo來解釋一下吧：

求解

行為計數向量表示法

我們假設我們的網站有四個模塊，分別是ABCD，有四個用戶分別是1234。我們現在有了這四個用戶的訪問日誌，格式是

<user>, <path>, <stamp>

比如說 1, A, 1234567 這個樣子，那麼我們對這些日誌進行聚合，就可以得到一個用戶訪問每個模塊的次數,如下表格：

ABCD1000213132224342

這樣就可以分別用一個4維向量代表一個用戶，比如1號用戶就是 [0,0,0,10] 其他類似。

再這樣數據的基礎上，我們可以使用聚類演算法比如KMeans，得到1號用戶這個離群點，對這個離群點特徵性比較強的D模塊上，加大監控力度，在剛剛準備作惡的時候，就組織他，或者採用其他措施。

以上這種方法可以很自然的將用戶轉換成一個n維向量，但是轉換過程中卻丟失了一個很重要的屬性，也就是時間屬性，丟失了訪問的先後次數，而這個先後次數對於定義用戶的類別卻十分有用。那麼自然我們就有了第二個思路：行為序列向量表示法

行為序列表示法

依然是上面的四個模塊: ABCD，我們現在得到了四個人的訪問序列：

1: A -> C -> D -> B2: C -> D -> B3: A -> C4: A -> A -> D -> A -> A -> A -> D

當有了上面數據以後，我們採用一些數據對齊的方法，比如採樣相同時間段的數據相同長度的數據，就可以將每個人的行為序列，也轉換成一個向量，然後對這些向量使用各種聚類模型，對用戶分類。當然我們也可以模仿類似於貝葉斯中的基於先驗概率的模型，實現我們的訓練過程中，根據標記數據，我們獲知，A -> A -> A這種情況出現的概率很小，這樣我們就可以知道，4號用戶很可能有什麼異常，爬蟲或者是spammer。

當然在實際模型建立過程中，不可能只依靠一種演算法，對於數據也不會像例子上面那麼清晰，會有很多的雜訊和其他影響，需要其他的技術輔助處理，再配合策略作為限制，相信會有比較不錯的效果，目前正在研究第一種思路，聚類效果明顯，且某些類別的spam比例能到達99%，好了，就扯這麼多了吧。