社交 App 如何做反垃圾？

01-13

關於社交APP如何做反垃圾的問題
屏蔽了一些非法字、敏感詞等，可是色情釣魚業變著花的跟你打游擊，各種變異的字體，字元使用戶受騙被引誘。對於APP環境造成了很不好的影響。
謝謝

1、對惡意樣本進行分析，版本、系統、解析度、機型、惡意時間、ip、gps、註冊時間、惡意前一周、一個月的行為習慣….

2、看與正常用戶的差異

3、根據每個差異找到解決策略，衡量策略的投入產出

-------

一些小理念：

1、斬源頭，是否手機關聯？

2、提高成本為目標而非杜絕

3、挖掘惡意價值鏈，打斷薄弱環節，比如鏈接不可點，複製一些可疑網址小的限制

…

引用山口百小惠的回答：

用戶自主生產的內容確實良莠混雜，要想解決這些問題其實需要專業的反垃圾來做。

由於垃圾信息變體非常多，反垃圾的技術要求也更高。文字需要考慮符號、漢語變體、拼音以及各類樣本，圖片則難度更高，需要對圖片進行精確識別。對產品來說，反垃圾系統的響應時間、過濾的準確度都非常關鍵。僅靠人力去過濾效率是非常低的，機器的過濾才是關鍵，但這對技術要求非常高。

另外還想多說一句，創業型公司組建團隊做反垃圾項目其實是非常佔用人力的，反垃圾的難度決定了它對技術實力的要求，大公司相比來說更有實力和資金進行技術研發。我接觸到的大多數內容的反垃圾都是由外包團隊做的。而目前國外別做的比較好的如
pic check，國內如網易的易盾等，技術實力都比較強。

打算試用看看，挖個坑，到時候寫一個評測報告分享

易盾這個如果是網易的話應該還不錯，郵件反垃圾畢竟比較出名。

但是我們廣告類垃圾是最多的，還是要試試看才知道吧。

————————

看贊應該也有小夥伴有類似的問題吧，評測報告坑還木有填。。

目前產品自身會有基本的關鍵詞過濾和行為限制，舉報機制，但明顯不夠用。

反垃圾工作應該是從兩個方面來考慮：

1、從技術角度來說，主要是文本分析和用戶分析兩個層面，對文本進行分詞和標註，進行詞性，詞頻，詞的位置等特徵提取，然後利用機器學習的演算法進行過濾，這是傳統基於郵件反垃圾的通用做法。另外一個方面，也可以從用戶的角度來分析，收集用戶的社交行為數據，訓練出殭屍，垃圾製造者用戶的社交模式和規則（這個因平台而異）。

2、從運營角度來說，頻率門檻規則+人工審核+激勵舉辦機制+社區管理規範。目前這一塊正在摸索中，希望有同仁可以交流交流經驗

反垃圾工作主要是對發布者和發布內容進行分析，識別並處理垃圾信息。題主對問題的描述，恰好直指反垃圾工作的一個重要特點：持續對抗 - 這也是網易內容安全縱隊在多年 UGC 相關產品（如網易新聞、網易雲音樂、網易考拉等）運營工作中最直觀的感受。

持續對抗就是說無法一勞永逸，只能緩解壓力。因為垃圾信息無孔不入，而且種類繁多，我們必須通過自動化的反垃圾技術體系來提高效率、降低成本；而因為垃圾製造者會不斷變招，我們又需要有一撥人見招拆招，圍堵那些漏網之魚，當然最好是還能夠總結出新的規律，將自動化技術體系升級，讓工作更輕鬆一些。

垃圾信息發布者一定有與正常用戶不同的核心特徵，找到這些不容易變化的特徵，對可疑帳號進行特別處理，比如限制註冊/發布，就能減少很多的工作。對垃圾發布者的識別，包括在帳號信息與帳號行為的分析，比如註冊時間、關聯手機/郵箱、IP、發布頻率等。當然，一些特徵也可能和平台性質有關，需要具體挖掘。需要注意的是，帳號的頭像、昵稱、簽名也可能是垃圾信息藏匿的場所，私信就更不用說了。

對垃圾內容的識別，需要根據內容類別分別處理，當前社交平台基本都支持文本、圖片、語音、視頻，這是從媒介的維度劃分，不同的媒介需要不同的技術手段，文本理解、圖像識別、語音分析、視頻檢測技術都需要拿得出手。另外從內容性質的維度，垃圾信息又包括廣告、黃賭毒、暴恐、涉政等方面，識別方法也不會完全相同。

在識別手段上，正則表達式在某些場景可以發揮很大的作用，但面對層出不窮的新花樣，還是需要靠譜的演算法模型，尤其是圖像識別，是深度學習最擅長的任務了。演算法做好的話，能夠省很多人力。由於長期需要處理郵箱和 UGC 產品的反垃圾，網易雲在文本、圖像、語音、視頻方面都有實踐經驗，同音詞匹配、模糊匹配和題主說的變異字體匹配都要搞定，相似圖片、動漫、水印都要能識別，圖片旋轉、裁剪、亮度色調變化更不在話下。藉助深度學習，我們色情圖像識別精準度達到了99.8%（人工智慧是如何識別一張黃圖的？）。這要感謝網易海量雲計算資源，更要歸功於多年反垃圾特徵數據沉澱，歸功於安全團隊孜孜不倦地更新垃圾特徵，深度學習才能發揮作用。所以說，實時檢測絕對不能出問題，但在線不可能積累太多的特徵，離線訓練也是同樣重要的。

以上措施為內部不可或缺的努力。外部的，就要藉助社區的力量了，這更多屬於運營手段，比如用打動用戶內心的產品定位來吸引高質量用戶，用優質內容和激勵機制引導這些用戶維護產品定位，共同抵制（如舉報、踩、摺疊）垃圾信息。

總而言之，對於反垃圾工作，專業的技術系統和專業的團隊，二者缺一不可。小團隊可以採用專業的第三方反垃圾雲服務，和外包審核團隊（ Google 也這麼干），來減輕內部團隊的壓力。另外提示一點，與主管單位保持良好的關係，研究相關法規，對違規內容的過濾工作是非常重要的。

最後，感謝其他答主為網易雲安全（易盾）打call。

利益相關：網易雲提供專業的反垃圾雲服務，已成功應用在門戶網站、博客、論壇、圖片社區、音樂、社交應用、遊戲、視頻直播、電商等領域，歡迎免費試用。

就拿我們平時用的比較多的微博來說吧，經常可以看到一些垃圾信息、圖片等。（是不是說明微博的反垃圾做的不夠好啊~ 我這裡並不是想黑它哦~）我只是想說明微博這麼大的平台反垃圾技術都做的不好，何況還有那麼多規模較小的社交APP。

社交APP的反垃圾工作量的確很大，平台里的UGC內容太多，源頭上根本不好控制，人工審核的話很難完全消滅這些垃圾信息。anti-spam是一個無止境的工作，只要軟體存在就需要一直做下去。

現在市場上有一些第三方的反垃圾產品對於社交APP是一個很不錯的選擇，企業平台一天內就可以接入。而且一些APP類似易盾等都提供免費試用服務，社交平台可以自己先接入試用下。畢竟有專業的技術支撐會比直接自己做反垃圾的效果好的多。

註冊信息和用戶行為

登錄來源註冊設備 ip 註冊時間

文本圖片信息過濾

短時間重複發帖/回帖/關注

查看調用介面的順序

如果有im系統，可以查看用戶發帖時是否登錄了im，機器的話不會有登錄

對方也是人，光用機器搞不死，一定要有人

這個問題確實有點大，說幾點個人經驗和意見，我們也還在摸索中，大家互相探討一下吧~

1.垃圾賬號：垃圾賬號是所有垃圾信息的源頭，可以根據註冊IP、設備、用戶名等各種維度的信息來過濾出垃圾賬號，然後殺掉他們，能把垃圾賬號清理的越多，spamer的成本越高；

2.文本過濾：黑名單詞庫+貝葉斯，基本上就差不多了；

3.圖片識別：這塊估計目前除了BAT這些大公司之外，大家都沒什麼特別好的沉澱吧，主要還是以人工審核為主，審核記錄下來的一些圖片可以留作訓練樣本，滿滿積累吧。

社交APP反垃圾現在解決方式已經逐漸成熟化了

社交app分為：工具社交、陌生人社交、鄰里社交，相親社交，直播社交，知識社交等；

社交存在中垃圾分為：文字廣告，二維碼廣告，騷擾廣告，辱罵文字，噁心、尺度大圖片，手寫文字圖片等，這些是社交中存在的垃圾分類；

已有的解決方式：人工巡檢、用戶舉報、關鍵詞封號等。

對企業造成的體驗：流失+受騙+騷擾=活躍度下降。

那，現在社交APP是如何發垃圾的：

中國目前的內容企業越來越多，網路內容安全已成眾多企業甚至國家探討的話題，應《中華人民共和國網路安全法》要求，從 6月1日起，使用互聯網服務需進行賬號實名認證，手機號驗證。國家互聯網信息辦公室開始全面推進網路真實身份信息的管理，包括微博、貼吧和網站等實名認證。

從15年直播、社交等內容創業的開始，色情、自殺、暴恐、謠言等不良信息的傳播，引起了相關部門對內容安全市場的重視，對企業的監管。國內某直播平台了規範企業的色情、暴恐、及等信息，在外省組建了一支3000人的24小時人工監測團隊，同年，國外Facebook在全球組建一支3000人的審核團隊，以加速審查、監測與暴力和犯罪行為有關的直播視頻、帖子，避免悲劇發生。

建立規模性的人工審核基地，對於中小企業來講，是一件成本運作非常高的模式，對於中小企業有一定的資產考驗；而對於影響用戶體驗的廣告垃圾、刷屏、色情交易等內容，人工在第一時間發現較為難，而企業自身研發的機器關鍵次攔截過濾等方式，不僅誤殺率超高，甚至漏洞百出，隨著的變換字形，詞義，語音等不同形式出現，對於普通攔截難度很低級，不僅沒提升用戶體驗，反而給用戶造成嚴重不舒適，信息延遲長等用戶差評感，引發用戶流失。

而雲凈網看準了內容安全的市場，通過打造自己的內容安全及內容解決方案服務平台，從16年成立到至今短短几年，接入的服務的企業客戶便過170家，涵蓋直播、遊戲、社交、新聞門戶網站、電商、O2O等多個領域。其中包括中華網、鳳凰網、有緣網、汽車之家、黎視頻、酷我音樂等知名企業。

支撐起如此龐大的企業客戶內容安全，正是憑藉著雲凈網過硬的安全支撐團隊，雲凈網內容安全團隊就曾服務於中國移動飛信業務，為飛信提供長達幾年的內容安全服務，在服務飛信業務時，雲凈網積攢了大量關於內容審核的方式，及涵蓋文字+圖片+音頻等龐大的資料庫。

通過運用AI+大數據等運作的處理方式，雲凈網建立首個智能反垃圾雲服務平台，其擁有自主知識產權自然語言處理引擎，海量行業敏感詞庫積累。結合機器學習和大數據分析技術，自主過濾95%以上垃圾信息，準確率以保證在98%以上。

企業對於文本的處理解決方式通常在於設定違規關鍵詞，很常見的就是遊戲中的***字樣，或是看似發布出的文本，但實際只有自己本人可看到，雖看似造成不任何的傳播擴散，但對用戶體驗有著直接的影響，而關鍵詞攔截方式成本低，對於擴散的程度做不到精準的把控。而雲凈網反垃圾平台，針對用戶上傳的所有文字都會經過

「自然語言處理+關鍵詞過濾服務+語義指紋識別」這三套體系過濾。比如：新*鄕*哪*辦*高*仿*假*證電話 13123456789 荃

椢貨椡付款

正常的機器多半情況下是無法識別的，但是雲凈網會根據每段的文字進行拆分，並且通過三次不同的數據介面反饋來確認文本的正確率。

更厲害的在於雲凈網的人工智慧機器學習模式，它可以自動分析用戶發布的場景，如某人在直播間進行自殺／或者有色情的交易，人工審核是很難第一時間發現，後期發現往往會造成悲劇甚至色情的傳播。而雲凈網的自主學習能力包含「場景識別」任何場景的傳播中會涵蓋文字，而文字的傳播，則是帶有場景性；如彈幕中「別想不開」「時光還有很多，想想你家人」及「快脫」「你的胸**好大」等字樣，都會被機器學習的下的場景模式所捕捉到，並且在第一時間報警或聯繫運營人員關閉直播間，儘快的挽回生命及把淫穢色情發生的第一時間關掉，避免造成悲劇發生，

單有文字安全的解決方式，遠遠解決不了企業內容核心問題。

圖片+音視頻的處理方式也是跟文本的不為相同，圖片審核的方式不同的維度，包含：廣告、色情、暴恐、二維碼、人臉、名人，身份證、性別、顏值等。比如說，某張圖片中含有廣告字眼樣，一張是機打淺水印，另外一種是手寫印記。兩種方式比較常見，機打淺水印可通過機器精準識別，且雲凈網識別率高達99.8%。而手寫印記的識別程度對機器是一種考量，難度在於形體的變化，只能加註大量的人工標記，提升機器的學習能力，而雲凈網自建的人工審核團隊+機器識別模式下，手寫水印識別率可保證在95%以上，超越市面上大多數圖片審核供應商。

目前雲凈網中國領先的大眾婚戀交友移動互聯網平台-有緣網，建立長期內容安全戰略合作，

採用機器+人工模式，通過不斷完善機器學習等深層技術能力等方式，以提升有緣網用戶活躍，保證用戶在上傳頭像的真實，減少廣告，詐騙等行為存在，減少有緣網對於內容運營成本的

。

未來雲凈網希望在減少人工運營成本之外，提供更安全，更可靠，甚至更精準的內容安全解決方案。

推薦融雲的發垃圾功能。融雲不但做社交APP內的IM功能，還可以做反垃圾功能，擁有6大技術支撐:消息指紋技術,行為分析技術,圖片識別技術,關鍵字識別技術,設備指紋技術，安全資料庫。一站式反垃圾信息雲服務產品。

簡言之，從信息抓賬戶，從賬戶抓人，從源頭進行打擊。內容識別只是一部分，行為識別也舉足輕重，同時光機器識別是不夠的，機器是死的，人才是活的。人工審核，人工調研，數據分析，缺一不可。而對用戶則有保護+預警懲罰兩種方式。保護無辜用戶免受傷，預警及懲罰惡意用戶。這裡面，非一兩句能說的清道的明。

作為一款新的社交app，首先要對自己想要打造的虛擬社區定好調性，而不符合你的調性的所有信息自然成為了垃圾信息。因此過濾是社交app從始至終都要從事的一門終身事業。社交app反垃圾的方向主要集中在垃圾虛假賬號，文字過濾，圖片識別等方向上，基本上是以人工識別為主，同時頒布社區管理規範以及對賬號註冊的嚴格控制，從源頭減少。畢竟新公司也很難有再大的人力和物力投資在反垃圾這塊，其實從個人角度建議社交app尋找一些專門做反垃圾的服務，不論是人力還是資金上都比較划算，可以去試用一下網易易盾，大公司的反垃圾工作還是會有一些沉澱的。

脈嘎app的做法就是拉黑。當然脈嘎的特點就是24小時自動刪除信息，而且每個用戶只能保留一條信息，而且發言有半徑限制和接收的人數限制。影響不大

社交app，只要用戶超過百萬級就要面對一堆的色情賬號或者營銷賬號來騷擾。我們戀戀app也是社交產品，談談一些做法，希望對你有幫助。

1.從源頭抓起：用戶無論是用第三方賬號還是什麼註冊提示要綁定手機號碼，或者直接手機號碼註冊。不要只用郵箱之類的，最好不要允許一個設備註冊多個社交產品的號碼（這個是虛假繁榮）

2.文字反垃圾：反垃圾會有詞庫，這個是一個運營累計的過程。要在後台不斷的增加這些特徵詞庫，對於在公眾信息（比如個人資料）中有觸發這些過濾關鍵字的有觸發把對應的字替換成××或者提示用戶含有敏感信息不能發。在超過3次要提交給客服處理（可以是封號或者封設備）。

3.圖片反垃圾：所有圖片都要審核（比如個人相冊，廣播圖片等），除私聊圖片外。這個沒辦法這是一個苦力活，為了保證平台的乾淨。當然市面上有一些圖片過濾器，靠譜度不太高。如果有條件可以先這個審核完然後客服同學去審核。

4.消息反垃圾：發垃圾的用戶都希望是一上來發一堆的垃圾營銷信息，所以可以對用戶特別是新用戶發消息的頻度設置限制。

5.設置舉報機制，讓用戶為了維持生態動起來。

對反垃圾只有零容忍，才能構建更好的互動環境。所有的策略都是為了提高發垃圾的成本