標籤:

文本反垃圾原理與應用

隨著移動互聯網技術的日漸發展,垂直社區、社交平台、短視頻應用、直播等互聯網產品蓬勃發展,各種 PGC、UGC 也呈爆炸式增長,各種網友神回復讓你不得不感慨高手在民間,但海量 UGC 中也夾雜著各種違規垃圾信息:新聞評論微商廣告、金融社區中的詐騙信息、美女直播時的露骨評論、體育直播中的地域黑都非常影響用戶體驗。因為觸及政策法規,這些垃圾信息更成為了這些互聯網產品的心頭大患。面對越來越多樣化的垃圾信息,如果只靠管理員人工審核和用戶舉報已經無法滿足海量內容的審核需求,這時候就需要通過技術手段來做自動化運營,然而自主研發反垃圾應用對技術實力和數據積累的要求極高,專業的智能反垃圾雲服務應運而生。

文本反垃圾原理

對文本垃圾,常規的審核方法是關鍵詞識別和演算法規則,演算法規則也叫規則引擎,主要就是表達式的集合,這種方式識別準確率會提高很多。但垃圾內容升級進化速度太快,複雜字元重組、特殊符號等讓常規審核方法也束手無策。簡單的裸聊二字,在垃圾內容里有有非常多的演變:

文本反垃圾技術除了要識別出垃圾文本,另一方面不能還把正常內容也判定成垃圾信息,舉個比較污的例子:

我們說的「口交」一詞通過常規審核肯定是認定為垃圾內容,但當它出現在「港口交通」、「串口交接線」這樣的語境里卻是正常內容,很容易造成誤判。

感覺以後都無法直面「港口交通」了呢。

那如何避免或降低這種複雜語義下的垃圾文本呢?這時候我們就要依託語義分析來處理辨別。語義分析是依託深度學習技術和大數據技術,機器從億級垃圾特徵庫中提取和不斷添加新特徵,通過反覆學習更有用特徵,來達到對複雜語義鍾垃圾內容的精確判定。通過這兩項關鍵技術,目前七牛平台上的易盾文本反垃圾的準確率可以達到 99.6%。

七牛雲文本反垃圾能力

七牛雲聯合網易易盾、達觀數據把文本反垃圾技術加入到 X 次元口袋,幫助用戶優雅地對抗文本垃圾。

  • 99.6% 攔截率,十萬分之一誤判率

  • 內容安全平均檢測時間<100 ms

  • 根據用戶行為特徵提供個性化內容安全功能

  • 對變種垃圾的極速適應能力

應用場景

在新聞、社交、論壇、博客、小說等 UGC 產品中的應用都需要用到文本反垃圾,無論是跟帖評論還是用戶 ID、個性簽名,只要有 UGC 的地方,就有垃圾信息產生。不良信息影響用戶體驗,不利於產品健康發展。七牛雲平台上的文本反垃圾服務基於海量特徵庫、信譽庫,針對社交類產品的垃圾信息特點,採用社交廣告特徵匹配、色情信息模型匹配、暴恐信息特徵匹配、信譽庫匹配等手段,對垃圾信息加以過濾。

通過使用七牛平台的文本反垃圾,無需將存儲在雲端的文本下載到本地、經過文本反垃圾後再上傳到雲端供用戶訪問,浪費帶寬資源。七牛直接將文本反垃圾等接入數據處理平台,可以讓用戶直接一站式完成從存儲、反垃圾處理到分發的過程。

有了文本反垃圾盾牌的保護,你只需要負責產品的運營和開發,不用擔心被垃圾文本污染,安心成為眾多互聯網產品中的「一股清流」。

開啟七牛文本反垃圾三步走

以網易易盾的文本反垃圾服務為例

第一步:點擊開啟使用,開啟服務

第二步:在七牛的對象存儲 bucket 中,獲取您想要檢測文本(txt 格式)的 URL

第三步,在文本 URL 後面加上 commad:?ydtext,返回的結果(已格式化,便於閱讀):

-------------------------------------

X 次元口袋

把數據的場景做深做透,真正幫助用戶縮短從想法到產品的距離,是七牛一直以來的使命。從 2011 年至今,圍繞數據管理打造場景化 PaaS ,我們已經服務了超過五十萬家客戶,承載了超過 2000 億張圖片,10 億小時視頻。

對互聯網開發者來說,一站式在線數據管理一定要包含針對海量數據的零運維、高可用、高性能的數據處理服務,以便輕鬆應對圖片、音視頻及其他各類數據的實時、非同步處理場景。目前,七牛提供的數據處理服務已經日處理數近百億次,除了提供基礎數據處理,還基於容器技術打造了易擴展、易部署、高自由度的自定義數據處理接入平台,與七牛數據處理服務無縫兼容使用,形成圍繞數據展開的富媒體生態體系。

「X 次元口袋」就是介紹這些富媒體數據處理服務的一檔欄目。

點擊「閱讀原文」去看看 X 次元口袋裡還有什麼寶貝

想要了解雲計算領域的技術洞見?

歡迎關注七牛雲機構帳號!

以上。

推薦閱讀:

kids:知乎日誌系統
10分鐘搭建MySQL Binlog分析+可視化方案
mysql binlog日誌自動清理及手動刪除
kids 開源了!
Spring Boot中logback配置文件載入過程

TAG:日志 |