小密圈的反黃策略該怎麼做？

01-31

一個星期前，我在小密圈正式運營了一個圈子，名字叫「天天美女排行榜」。顧名思義，就是每天會從海量美女圖片中挑選較為精美的展示給大家。技術手段上，我是用了爬蟲爬取圖片，利用卷積神經網路訓練了排序模型。但是，作為一個圈子的圈主，深感小密圈的反黃功能做的不好，很影響用戶體驗，因為我上傳的圖片全部不是黃圖，而小密圈總是誤判，認為我某幾張圖片是黃圖。而我又觀察幾個其他幾個圈子，也是以美女為主題，發現他們不少圖片涉黃了，而沒被識別出來。如此看來，小密圈的鑒黃功能，無論是從技術，還是用戶體驗方面來看，還是不夠好。作為一名互聯網的技術人員，突發奇想，如果由我來做小密圈的反黃功能，會如何做呢？

首先，一個核心模塊就是圖像識別，這裡，便是黃圖識別。從機器學習的角度，便是訓練一個二分類的模型，來預測一張圖片是否黃圖。涉及到圖像，自然會想到這幾年在AI領域風生水起的深度學習了。深度學習的卷積神經網路很適合做這麼一個場景。黃圖與非黃圖的樣本的標註，最開始，可以讓運營的同事標註一批來做，後面可以從日常的人工審核中的記錄補充進來形成正向反饋。具體到黃圖CNN模型的建立，可以自定義構造網路結構根據標註訓練，還可以直接利用學術界中訓練好的ImageNet模型來提取特徵，後面接一個分類器來訓練。這樣，得到一個黃圖識別的模型。結合到小密圈的反黃功能模塊，我感覺技術上目前就是這麼做的。現在的問題是，我發布的一些圖片，沒有涉黃，只露臀但不暴露敏感部位，被誤判為黃圖，而其他圈子的有些圖片，暴露了敏感部位，而通過了機器的審核。這麼看來，這個黃圖的缺點在於，對是否暴露敏感部位的識別功能不夠！一種可能是，標註樣本中，模稜兩可的圖片不夠充分，模型學不到真正的Decision Boundary。一方面，可以補充多點這種圖片往模型訓練。另外一方面，分別對敏感部位進行圖像識別建模，比如敏感部位是兩個，那麼再增加兩個模型，當然這兩個模型不能對原圖直接判別，已經超越了圖像識別，而是屬於圖像檢測了，一種粗暴的做法就是從左往右自上而下滑動窗口，掃描原圖的所有子窗口，

還有就是利用諸如selectivensearch的演算法對部分重要窗口進行掃描預測。（最近不知道有沒有出來更高端的演算法，如有請告知）這樣，我們可以從三個模型中預測是否黃圖的概率，一方面可以在下面再接一個分類器來強化我們黃圖識別能力，另一方面，可以在運營策略中結合規則處理，這點在後面會說。

另外，機器識別黃圖的難度大，那麼我們可以結合其他信息來完善我們的反黃功能。與其來預測圖片是否為黃圖，不如來預測用戶這次是否會上傳黃圖。拋開圖片本身的信息，我們來思考，什麼情況下，一位用戶上傳的圖片是黃圖的概率大？自然想到，這位用戶歷史行為記錄上傳過黃圖，這個圈子中涉黃的主題較多。從運營策略上來看，歷史行為記錄較多的用戶和圈子，就應該針對性檢測。

到此，從數據挖掘的角度來看，反黃功能涉及的特徵工程如下：

1 模型1的概率：CNN黃圖識別模型

2 模型2的概率：敏感部位1的檢測模型

3 模型3的概率：敏感部位2的檢測模型

4 用戶近1天，7天，30天，90天上傳黃圖的次數

5 圈子近1天，7天，30天，90天上傳黃圖的次數

這樣看來，再結合一下運營策略就比較不錯了。

這裡提供一下，我認為比較不錯的策略。

將1,2,3點合成一個模型，簡化為

1黃圖識別模型的概率

2 用戶近1天，7天，30天，90天上傳黃圖的次數

3 圈子近1天，7天，30天，90天上傳黃圖的次數

運營策略如下：

1 如果黃圖識別模型的概率為0.5以下，直接通過審核；

2 如果概率為0.6-0.7，

a 如果用戶和圈子歷史不涉黃或者次數較少，先通過，後續人工複審；

b 如果用戶或者圈子歷史涉黃較多，不通過，後續人工複審；

3 如果概率為0.8以上，不通過，後續人工複審；

本文純屬搞笑！

本文作者:linger

轉載須註明出處

歡迎關注公眾號：數據挖掘菜鳥【公眾號ID：data_bird】