社交 App 如何做反垃圾?

關於社交APP如何做反垃圾的問題

屏蔽了一些非法字、敏感詞等,可是色情釣魚業變著花的跟你打游擊,各種變異的字體,字元使用戶受騙被引誘。對於APP環境造成了很不好的影響。

謝謝


1、對惡意樣本進行分析,版本、系統、解析度、機型、惡意時間、ip、gps、註冊時間、惡意前一周、一個月的行為習慣….

2、看與正常用戶的差異

3、根據每個差異找到解決策略,衡量策略的投入產出

-------

一些小理念:

1、斬源頭,是否手機關聯?

2、提高成本為目標而非杜絕

3、挖掘惡意價值鏈,打斷薄弱環節,比如鏈接不可點,複製一些可疑網址小的限制


引用山口百小惠的回答:

用戶自主生產的內容確實良莠混雜,要想解決這些問題其實需要專業的反垃圾來做。

由於垃圾信息變體非常多,反垃圾的技術要求也更高。文字需要考慮符號、漢語變體、拼音以及各類樣本,圖片則難度更高,需要對圖片進行精確識別。對產品來說,反垃圾系統的響應時間、過濾的準確度都非常關鍵。僅靠人力去過濾效率是非常低的,機器的過濾才是關鍵,但這對技術要求非常高。

另外還想多說一句,創業型公司組建團隊做反垃圾項目其實是非常佔用人力的,反垃圾的難度決定了它對技術實力的要求,大公司相比來說更有實力和資金進行技術研發。我接觸到的大多數內容的反垃圾都是由外包團隊做的。而目前國外別做的比較好的如
pic check,國內如網易的易盾等,技術實力都比較強。

打算試用看看,挖個坑,到時候寫一個評測報告分享

易盾這個如果是網易的話應該還不錯,郵件反垃圾畢竟比較出名。

但是我們廣告類垃圾是最多的,還是要試試看才知道吧。

————————

看贊應該也有小夥伴有類似的問題吧,評測報告坑還木有填。。

目前產品自身會有基本的關鍵詞過濾和行為限制,舉報機制,但明顯不夠用。


反垃圾工作應該是從兩個方面來考慮:

1、從技術角度來說,主要是文本分析和用戶分析兩個層面,對文本進行分詞和標註,進行詞性,詞頻,詞的位置等特徵提取,然後利用機器學習的演算法進行過濾,這是傳統基於郵件反垃圾的通用做法。另外一個方面,也可以從用戶的角度來分析,收集用戶的社交行為數據,訓練出殭屍,垃圾製造者用戶的社交模式和規則(這個因平台而異)。

2、從運營角度來說,頻率門檻規則+人工審核+激勵舉辦機制+社區管理規範。目前這一塊正在摸索中,希望有同仁可以交流交流經驗


反垃圾工作主要是對發布者發布內容進行分析,識別並處理垃圾信息。題主對問題的描述,恰好直指反垃圾工作的一個重要特點:持續對抗 - 這也是網易內容安全縱隊在多年 UGC 相關產品(如網易新聞、網易雲音樂、網易考拉等)運營工作中最直觀的感受。

持續對抗就是說無法一勞永逸,只能緩解壓力。因為垃圾信息無孔不入,而且種類繁多,我們必須通過自動化的反垃圾技術體系來提高效率、降低成本;而因為垃圾製造者會不斷變招,我們又需要有一撥人見招拆招,圍堵那些漏網之魚,當然最好是還能夠總結出新的規律,將自動化技術體系升級,讓工作更輕鬆一些。

垃圾信息發布者一定有與正常用戶不同的核心特徵,找到這些不容易變化的特徵,對可疑帳號進行特別處理,比如限制註冊/發布,就能減少很多的工作。對垃圾發布者的識別,包括在帳號信息與帳號行為的分析,比如註冊時間、關聯手機/郵箱、IP、發布頻率等。當然,一些特徵也可能和平台性質有關,需要具體挖掘。需要注意的是,帳號的頭像、昵稱、簽名也可能是垃圾信息藏匿的場所,私信就更不用說了。

對垃圾內容的識別,需要根據內容類別分別處理,當前社交平台基本都支持文本、圖片、語音、視頻,這是從媒介的維度劃分,不同的媒介需要不同的技術手段,文本理解、圖像識別、語音分析、視頻檢測技術都需要拿得出手。另外從內容性質的維度,垃圾信息又包括廣告、黃賭毒、暴恐、涉政等方面,識別方法也不會完全相同。

在識別手段上,正則表達式在某些場景可以發揮很大的作用,但面對層出不窮的新花樣,還是需要靠譜的演算法模型,尤其是圖像識別,是深度學習最擅長的任務了。演算法做好的話,能夠省很多人力。由於長期需要處理郵箱和 UGC 產品的反垃圾,網易雲在文本、圖像、語音、視頻方面都有實踐經驗,同音詞匹配、模糊匹配和題主說的變異字體匹配都要搞定,相似圖片、動漫、水印都要能識別,圖片旋轉、裁剪、亮度色調變化更不在話下。藉助深度學習,我們色情圖像識別精準度達到了99.8%(人工智慧是如何識別一張黃圖的?)。這要感謝網易海量雲計算資源,更要歸功於多年反垃圾特徵數據沉澱,歸功於安全團隊孜孜不倦地更新垃圾特徵,深度學習才能發揮作用。所以說,實時檢測絕對不能出問題,但在線不可能積累太多的特徵,離線訓練也是同樣重要的。

以上措施為內部不可或缺的努力。外部的,就要藉助社區的力量了,這更多屬於運營手段,比如用打動用戶內心的產品定位來吸引高質量用戶,用優質內容和激勵機制引導這些用戶維護產品定位,共同抵制(如舉報、踩、摺疊)垃圾信息。

總而言之,對於反垃圾工作,專業的技術系統和專業的團隊,二者缺一不可。小團隊可以採用專業的第三方反垃圾雲服務,和外包審核團隊( Google 也這麼干),來減輕內部團隊的壓力。另外提示一點,與主管單位保持良好的關係,研究相關法規,對違規內容的過濾工作是非常重要的。

最後,感謝其他答主為網易雲安全(易盾)打call。

利益相關:網易雲提供專業的反垃圾雲服務,已成功應用在門戶網站、博客、論壇、圖片社區、音樂、社交應用、 遊戲、視頻直播、電商等領域,歡迎免費試用


就拿我們平時用的比較多的微博來說吧,經常可以看到一些垃圾信息、圖片等。(是不是說明微博的反垃圾做的不夠好啊~ 我這裡並不是想黑它哦~) 我只是想說明微博這麼大的平台反垃圾技術都做的不好,何況還有那麼多規模較小的社交APP。

社交APP的反垃圾工作量的確很大,平台里的UGC內容太多,源頭上根本不好控制,人工審核的話很難完全消滅這些垃圾信息。anti-spam是一個無止境的工作,只要軟體存在就需要一直做下去。

現在市場上有一些第三方的反垃圾產品對於社交APP是一個很不錯的選擇,企業平台一天內就可以接入。而且一些APP類似易盾等都提供免費試用服務,社交平台可以自己先接入試用下。畢竟有專業的技術支撐會比直接自己做反垃圾的效果好的多。


註冊信息和用戶行為

登錄來源 註冊設備 ip 註冊時間

文本圖片信息過濾

短時間重複發帖/回帖/關注

查看調用介面的順序

如果有im系統,可以查看用戶發帖時是否登錄了im,機器的話不會有登錄

對方也是人,光用機器搞不死,一定要有人


這個問題確實有點大,說幾點個人經驗和意見,我們也還在摸索中,大家互相探討一下吧~

1.垃圾賬號:垃圾賬號是所有垃圾信息的源頭,可以根據註冊IP、設備、用戶名等各種維度的信息來過濾出垃圾賬號,然後殺掉他們,能把垃圾賬號清理的越多,spamer的成本越高;

2.文本過濾:黑名單詞庫+貝葉斯,基本上就差不多了;

3.圖片識別:這塊估計目前除了BAT這些大公司之外,大家都沒什麼特別好的沉澱吧,主要還是以人工審核為主,審核記錄下來的一些圖片可以留作訓練樣本,滿滿積累吧。


社交APP反垃圾現在解決方式已經逐漸成熟化了


社交app分為:工具社交、陌生人社交、鄰里社交,相親社交,直播社交,知識社交等;

社交存在中垃圾分為:文字廣告,二維碼廣告,騷擾廣告,辱罵文字,噁心、尺度大圖片,手寫文字圖片等,這些是社交中存在的垃圾分類;

已有的解決方式:人工巡檢、用戶舉報、關鍵詞封號等。

對企業造成的體驗:流失+受騙+騷擾=活躍度下降。

那,現在社交APP是如何發垃圾的:


中國目前的內容企業越來越多,網路內容安全已成眾多企業甚至國家探討的話題,應《中華人民共和國網路安全法》要求,從 6月1日起,使用互聯網服務需進行賬號實名認證,手機號驗證。 國家互聯網信息辦公室開始全面推進網路真實身份信息的管理,包括微博、貼吧和網站等實名認證。

從15年直播、社交等內容創業的開始,色情、自殺、暴恐、謠言等不良信息的傳播,引起了相關部門對內容安全市場的重視,對企業的監管。國內某直播平台了規範企業的色情、暴恐、及等信息,在外省組建了一支3000人的24小時人工監測團隊,同年,國外Facebook在全球組建一支3000人的審核團隊,以加速審查、監測與暴力和犯罪行為有關的直播視頻、帖子,避免悲劇發生。

建立規模性的人工審核基地,對於中小企業來講,是一件成本運作非常高的模式,對於中小企業有一定的資產考驗; 而對於影響用戶體驗的廣告垃圾、刷屏、色情交易等內容,人工在第一時間發現較為難,而企業自身研發的機器關鍵次攔截過濾等方式,不僅誤殺率超高,甚至漏洞百出,隨著的變換字形,詞義,語音等不同形式出現,對於普通攔截難度很低級,不僅沒提升用戶體驗,反而給用戶造成嚴重不舒適,信息延遲長等用戶差評感,引發用戶流失。

而雲凈網看準了內容安全的市場,通過打造自己的內容安全及內容解決方案服務平台,從16年成立到至今短短几年,接入的服務的企業客戶便過170家,涵蓋直播、遊戲、社交、新聞門戶網站、電商、O2O等多個領域。其中包括中華網、鳳凰網、有緣網、汽車之家、黎視頻、酷我音樂等知名企業。

支撐起如此龐大的企業客戶內容安全,正是憑藉著雲凈網過硬的安全支撐團隊,雲凈網內容安全團隊就曾服務於中國移動飛信業務,為飛信提供長達幾年的內容安全服務,在服務飛信業務時,雲凈網積攢了大量關於內容審核的方式,及涵蓋文字+圖片+音頻等龐大的資料庫。

通過運用AI+大數據等運作的處理方式,雲凈網建立首個智能反垃圾雲服務平台,其擁有自主知識產權自然語言處理引擎,海量行業敏感詞庫積累。結合機器學習和大數據分析技術,自主過濾95%以上垃圾信息,準確率以保證在98%以上。

企業對於文本的處理解決方式通常在於設定違規關鍵詞,很常見的就是遊戲中的***字樣,或是看似發布出的文本,但實際只有自己本人可看到,雖看似造成不任何的傳播擴散,但對用戶體驗有著直接的影響,而關鍵詞攔截方式成本低,對於擴散的程度做不到精準的把控。而雲凈網反垃圾平台,針對用戶上傳的所有文字都會經過

「自然語言處理+關鍵詞過濾服務+語義指紋識別」這三套體系過濾。比如:新*鄕*哪*辦*高*仿*假*證 電話 13123456789 荃

椢 貨 椡 付 款

正常的機器多半情況下是無法識別的,但是雲凈網會根據每段的文字進行拆分,並且通過三次不同的數據介面反饋來確認文本的正確率。

更厲害的在於雲凈網的人工智慧機器學習模式,它可以自動分析用戶發布的場景,如某人在直播間進行自殺/或者有色情的交易,人工審核是很難第一時間發現,後期發現往往會造成悲劇甚至色情的傳播。而雲凈網的自主學習能力包含「場景識別」任何場景的傳播中會涵蓋文字,而文字的傳播,則是帶有場景性;如彈幕中「別想不開」「時光還有很多,想想你家人」及「快脫」「你的胸**好大」等字樣,都會被機器學習的下的場景模式所捕捉到,並且在第一時間報警或聯繫運營人員關閉直播間,儘快的挽回生命及把淫穢色情發生的第一時間關掉,避免造成悲劇發生,

單有文字安全的解決方式,遠遠解決不了企業內容核心問題。

圖片+音視頻的處理方式也是跟文本的不為相同,圖片審核的方式不同的維度,包含:廣告、色情、暴恐、二維碼、人臉、名人,身份證、性別、顏值等。比如說,某張圖片中含有廣告字眼樣,一張是機打淺水印,另外一種是手寫印記。兩種方式比較常見,機打淺水印可通過機器精準識別,且雲凈網識別率高達99.8%。而手寫印記的識別程度對機器是一種考量,難度在於形體的變化,只能加註大量的人工標記,提升機器的學習能力,而雲凈網自建的人工審核團隊+機器識別模式下,手寫水印識別率可保證在95%以上,超越市面上大多數圖片審核供應商。

目前雲凈網中國領先的大眾婚戀交友移動互聯網平台-有緣網,建立長期內容安全戰略合作,

採用機器+人工模式,通過不斷完善機器學習等深層技術能力等方式,以提升有緣網用戶活躍,保證用戶在上傳頭像的真實,減少廣告,詐騙等行為存在,減少有緣網對於內容運營成本的

未來雲凈網希望在減少人工運營成本之外,提供更安全,更可靠,甚至更精準的內容安全解決方案。


推薦融雲的發垃圾功能。融雲不但做社交APP內的IM功能,還可以做反垃圾功能,擁有6大技術支撐:消息指紋技術,行為分析技術,圖片識別技術,關鍵字識別技術,設備指紋技術,安全資料庫。一站式反垃圾信息雲服務產品。


簡言之,從信息抓賬戶,從賬戶抓人,從源頭進行打擊。內容識別只是一部分,行為識別也舉足輕重,同時光機器識別是不夠的,機器是死的,人才是活的。人工審核,人工調研,數據分析,缺一不可。而對用戶則有保護+預警懲罰兩種方式。保護無辜用戶免受傷,預警及懲罰惡意用戶。這裡面,非一兩句能說的清道的明。


作為一款新的社交app,首先要對自己想要打造的虛擬社區定好調性,而不符合你的調性的所有信息自然成為了垃圾信息。因此過濾是社交app從始至終都要從事的一門終身事業。社交app反垃圾的方向主要集中在垃圾虛假賬號,文字過濾,圖片識別等方向上,基本上是以人工識別為主,同時 頒布社區管理規範以及對賬號註冊的嚴格控制,從源頭減少。畢竟新公司也很難有再大的人力和物力投資在反垃圾這塊,其實從個人角度建議社交app尋找一些專門做反垃圾的服務,不論是人力還是資金上都比較划算,可以去試用一下網易易盾,大公司的反垃圾工作還是會有一些沉澱的。


脈嘎app的做法就是拉黑。當然脈嘎的特點就是24小時自動刪除信息,而且每個用戶只能保留一條信息,而且發言有半徑限制和接收的人數限制。影響不大


社交app,只要用戶超過百萬級就要面對一堆的色情賬號或者營銷賬號來騷擾。我們戀戀app也是社交產品,談談一些做法,希望對你有幫助。

1.從源頭抓起:用戶無論是用第三方賬號還是什麼註冊提示要綁定手機號碼,或者直接手機號碼註冊。不要只用郵箱之類的,最好不要允許一個設備註冊多個社交產品的號碼(這個是虛假繁榮)

2.文字反垃圾:反垃圾會有詞庫,這個是一個運營累計的過程。要在後台不斷的增加這些特徵詞庫,對於在公眾信息(比如個人資料)中有觸發這些過濾關鍵字的有觸發把對應的字替換成××或者提示用戶含有敏感信息不能發。在超過3次要提交給客服處理(可以是封號或者封設備)。

3.圖片反垃圾:所有圖片都要審核(比如個人相冊,廣播圖片等),除私聊圖片外。這個沒辦法這是一個苦力活,為了保證平台的乾淨。當然市面上有一些圖片過濾器,靠譜度不太高。如果有條件可以先這個審核完然後客服同學去審核。

4.消息反垃圾:發垃圾的用戶都希望是一上來發一堆的垃圾營銷信息,所以可以對用戶特別是新用戶發消息的頻度設置限制。

5.設置舉報機制,讓用戶為了維持生態動起來。

對反垃圾只有零容忍,才能構建更好的互動環境。所有的策略都是為了提高發垃圾的成本


推薦閱讀:

大部分用戶都反感計算機、智能手機中的無用的預裝軟體,為什麼廠商還是堅持要這樣做?甚至有時還不提供卸載選項?
App的名字對傳播影響有多大?
ifttt有何存在價值?它能帶來信息組織、傳播的變革嗎?
課程格子這個應用目前存在哪些不足?
有哪些好用的建築行業的APP?

TAG:社交網路 | 產品經理 | 應用程序Application | 運營 | 反垃圾Anti-Spam |