小密圈的反黃策略該怎麼做?
一個星期前,我在小密圈正式運營了一個圈子,名字叫「天天美女排行榜」。顧名思義,就是每天會從海量美女圖片中挑選較為精美的展示給大家。技術手段上,我是用了爬蟲爬取圖片,利用卷積神經網路訓練了排序模型。但是,作為一個圈子的圈主,深感小密圈的反黃功能做的不好,很影響用戶體驗,因為我上傳的圖片全部不是黃圖,而小密圈總是誤判,認為我某幾張圖片是黃圖。而我又觀察幾個其他幾個圈子,也是以美女為主題,發現他們不少圖片涉黃了,而沒被識別出來。如此看來,小密圈的鑒黃功能,無論是從技術,還是用戶體驗方面來看,還是不夠好。作為一名互聯網的技術人員,突發奇想,如果由我來做小密圈的反黃功能,會如何做呢?
首先,一個核心模塊就是圖像識別,這裡,便是黃圖識別。從機器學習的角度,便是訓練一個二分類的模型,來預測一張圖片是否黃圖。涉及到圖像,自然會想到這幾年在AI領域風生水起的深度學習了。深度學習的卷積神經網路很適合做這麼一個場景。黃圖與非黃圖的樣本的標註,最開始,可以讓運營的同事標註一批來做,後面可以從日常的人工審核中的記錄補充進來形成正向反饋。具體到黃圖CNN模型的建立,可以自定義構造網路結構根據標註訓練,還可以直接利用學術界中訓練好的ImageNet模型來提取特徵,後面接一個分類器來訓練。這樣,得到一個黃圖識別的模型。結合到小密圈的反黃功能模塊,我感覺技術上目前就是這麼做的。現在的問題是,我發布的一些圖片,沒有涉黃,只露臀但不暴露敏感部位,被誤判為黃圖,而其他圈子的有些圖片,暴露了敏感部位,而通過了機器的審核。這麼看來,這個黃圖的缺點在於,對是否暴露敏感部位的識別功能不夠!一種可能是,標註樣本中,模稜兩可的圖片不夠充分,模型學不到真正的Decision Boundary。一方面,可以補充多點這種圖片往模型訓練。另外一方面,分別對敏感部位進行圖像識別建模,比如敏感部位是兩個,那麼再增加兩個模型,當然這兩個模型不能對原圖直接判別,已經超越了圖像識別,而是屬於圖像檢測了,一種粗暴的做法就是從左往右自上而下滑動窗口,掃描原圖的所有子窗口,
還有就是利用諸如selectivensearch的演算法對部分重要窗口進行掃描預測。(最近不知道有沒有出來更高端的演算法,如有請告知)這樣,我們可以從三個模型中預測是否黃圖的概率,一方面可以在下面再接一個分類器來強化我們黃圖識別能力,另一方面,可以在運營策略中結合規則處理,這點在後面會說。
另外,機器識別黃圖的難度大,那麼我們可以結合其他信息來完善我們的反黃功能。與其來預測圖片是否為黃圖,不如來預測用戶這次是否會上傳黃圖。拋開圖片本身的信息,我們來思考,什麼情況下,一位用戶上傳的圖片是黃圖的概率大?自然想到,這位用戶歷史行為記錄上傳過黃圖,這個圈子中涉黃的主題較多。從運營策略上來看,歷史行為記錄較多的用戶和圈子,就應該針對性檢測。
到此,從數據挖掘的角度來看,反黃功能涉及的特徵工程如下:
1 模型1的概率:CNN黃圖識別模型
2 模型2的概率:敏感部位1的檢測模型
3 模型3的概率:敏感部位2的檢測模型
4 用戶近1天,7天,30天,90天上傳黃圖的次數
5 圈子近1天,7天,30天,90天上傳黃圖的次數
這樣看來,再結合一下運營策略就比較不錯了。
這裡提供一下,我認為比較不錯的策略。
將1,2,3點合成一個模型,簡化為
1黃圖識別模型的概率
2 用戶近1天,7天,30天,90天上傳黃圖的次數
3 圈子近1天,7天,30天,90天上傳黃圖的次數
運營策略如下:
1 如果黃圖識別模型的概率為0.5以下,直接通過審核;
2 如果概率為0.6-0.7,
a 如果用戶和圈子歷史不涉黃或者次數較少,先通過,後續人工複審;
b 如果用戶或者圈子歷史涉黃較多,不通過,後續人工複審;
3 如果概率為0.8以上,不通過,後續人工複審;
本文純屬搞笑!
本文作者:linger
轉載須註明出處
歡迎關注公眾號:數據挖掘菜鳥【公眾號ID:data_bird】
推薦閱讀: