目前有哪些問答類網站在應對 Spam 內容上有比較可行的辦法？

01-13

百度知道和搜搜問問這2個成熟的問答平台各種違規做的都不盡如人意。一個網站在初期用戶少的時候，作弊、廣告、違規內容還是較少的，但是隨著規模擴大，用戶提升，有了利益的時候，這些內容就很多很難控制了。

反spam首先應確定spam的定義，不同的網站對spam的定義是不同的。另外反spam是問題驅動，需要在大量數據中找尋其不變或不易變的規律（因為要盡量將其行為提煉成機器可識別的策略）

因為我目前看不到數據，所以我只能從我個人理解角度闡述一點自己的看法，對錯暫且不論。

spam大多因利益驅動，利益（也可以簡單地理解為錢）是其樂此不疲的原因，因此反spam的對應方式在於「斷其利益鏈」。

反spam領域有一條經驗叫做「不以善小而不為」，即模擬作弊者的過程和流程，在每個環節給予設置障礙，逐步加大其作弊成本，增強其挫敗感，直至利益鏈被切斷或收益很小，使其漸漸喪失動力。

從個人經驗而言，問答類網站的spam大致分為以下幾種：

1、seo（搜索引擎）

2、自問自答刷經驗（危害較低）

3、夾雜在回答中的軟文廣告

4、用戶名作弊

而按其操作流程來分，基本是：

1、註冊

2、登錄

3、提問

4、回答

5、反覆2、3、4

那麼就很清楚了，可以參考的方法是：

1、註冊環節反作弊。即採取一定手段來保證產生註冊行為的是真實的用戶。例如相似用戶名的識別、註冊頻率控制、相同id/ip對應規律等，還有註冊驗證碼、手機驗證（郵箱驗證基本不靠譜，搜一下什麼叫10分鐘郵箱即知），以及一些帶有聯繫方式，包含qq+數字或者手機xxxxx等規律是可以尋找的。當然，在前期如果考慮到用戶註冊成本，並且本身社區不考慮質量，在此環節設置過多策略等於加大用戶註冊成本，會造成一定程度的用戶註冊流失。

2、登錄環節反作弊。即對異常登錄行為作提醒和監控，因為問答類網站區別於一般社區，問答存在目的性，一般用戶不大可能頻繁重複登錄。因此短時間內同ip對應登錄多個用戶名，或者頻繁快速提問/回答多個問題都可視為疑似spam行為。

3、提問和回答可統一看做發布提交行為或對於內容的反作弊。除了2裡面包括的「短時間內同ip對應登錄多個用戶名，或者頻繁快速提問/回答多個問題都可視為疑似spam行為。」之外，比如說內容敏感詞過濾、相似內容的重複發布召回、內容中帶有頭像、qq加固定詞語的監控……還有很多很多，總之根據實際情況圍繞內容中出現的對於作弊者利益最大的「利益鏈」下功夫即可。但是這裡我的看法是不要僅圍繞內容本身，因為內容是會變的，如果同時圈定疑似作弊用戶這個維度進行，效果會更好。

大致就是這樣吧，反spam固然在方法上存在一定共通性，但是具體需要結合產品形態本身和實際情況才能給出好的方案。

另外，反spam，機器策略是不可能完全替代人工審核的。