目前有哪些問答類網站在應對 Spam 內容上有比較可行的辦法?
百度知道和搜搜問問這2個成熟的問答平台各種違規做的都不盡如人意。一個網站在初期用戶少的時候,作弊、廣告、違規內容還是較少的,但是隨著規模擴大,用戶提升,有了利益的時候,這些內容就很多很難控制了。
反spam首先應確定spam的定義,不同的網站對spam的定義是不同的。另外反spam是問題驅動,需要在大量數據中找尋其不變或不易變的規律(因為要盡量將其行為提煉成機器可識別的策略)
因為我目前看不到數據,所以我只能從我個人理解角度闡述一點自己的看法,對錯暫且不論。
spam大多因利益驅動,利益(也可以簡單地理解為錢)是其樂此不疲的原因,因此反spam的對應方式在於「斷其利益鏈」。
反spam領域有一條經驗叫做「不以善小而不為」,即模擬作弊者的過程和流程,在每個環節給予設置障礙,逐步加大其作弊成本,增強其挫敗感,直至利益鏈被切斷或收益很小,使其漸漸喪失動力。
從個人經驗而言,問答類網站的spam大致分為以下幾種:
1、seo(搜索引擎)2、自問自答刷經驗(危害較低)
3、夾雜在回答中的軟文廣告4、用戶名作弊而按其操作流程來分,基本是:
1、註冊2、登錄
3、提問4、回答5、反覆2、3、4那麼就很清楚了,可以參考的方法是:
1、註冊環節反作弊。即採取一定手段來保證產生註冊行為的是真實的用戶。例如相似用戶名的識別、註冊頻率控制、相同id/ip對應規律等,還有註冊驗證碼、手機驗證(郵箱驗證基本不靠譜,搜一下什麼叫10分鐘郵箱即知),以及一些帶有聯繫方式,包含qq+數字或者手機xxxxx等規律是可以尋找的。當然,在前期如果考慮到用戶註冊成本,並且本身社區不考慮質量,在此環節設置過多策略等於加大用戶註冊成本,會造成一定程度的用戶註冊流失。
2、登錄環節反作弊。即對異常登錄行為作提醒和監控,因為問答類網站區別於一般社區,問答存在目的性,一般用戶不大可能頻繁重複登錄。因此短時間內同ip對應登錄多個用戶名,或者頻繁快速提問/回答多個問題都可視為疑似spam行為。
3、提問和回答可統一看做發布提交行為或對於內容的反作弊。除了2裡面包括的「短時間內同ip對應登錄多個用戶名,或者頻繁快速提問/回答多個問題都可視為疑似spam行為。」之外,比如說內容敏感詞過濾、相似內容的重複發布召回、內容中帶有頭像、qq加固定詞語的監控……還有很多很多,總之根據實際情況圍繞內容中出現的對於作弊者利益最大的「利益鏈」下功夫即可。但是這裡我的看法是不要僅圍繞內容本身,因為內容是會變的,如果同時圈定疑似作弊用戶這個維度進行,效果會更好。
大致就是這樣吧,反spam固然在方法上存在一定共通性,但是具體需要結合產品形態本身和實際情況才能給出好的方案。
另外,反spam,機器策略是不可能完全替代人工審核的。
推薦閱讀:
※關注哪些技術才能讓產品經理的設計更靠譜?
※Quora 和 Stack Overflow 在名譽體系的區別是什麼?
※互聯網會對裝修行業產生什麼樣的影響?
※為什麼 bgm.tv(Bangumi 番組計劃) 作為一個帶有豆瓣模式的 ACG 交流網站在人氣上會不及快餐化的彈幕視頻 AB(AcFun、BiliBili)兩站?
TAG:中國互聯網 | 互聯網產品 | 反垃圾Anti-Spam | 垃圾郵件 |