UGC網站的內容審核管理是怎麼做的?
人工審核還是系統審核?若是系統審核,一般用什麼系統?
我自己接觸下來,從兩方面考慮:
1、內容的重點程度,決定了審核的側重點如何分配。
以知乎為例,知乎的審核應該以機審為主,在發現一些問題之後(如機審異常、有人舉報等),再介入人工干預。但一個新聞發布系統,則新文章需要經過相對嚴格的人審,對於評論則通過機審即可。再以淘寶為例,淘寶也可以假擬為一個UGC網站,商品上架偏重於機審、人審為輔。
一般而言,機審和人審都需要具備,海量數據以機審為主,人審為輔;少量數據則可投入更多的人審。機審側重於一些可衡量的因子,如違禁詞、內容長度、spam。
2、審核不是目的,只是手段。需要通過額外的體系,刺激用戶發布不違規的內容,以體現其在站內的價值最大化。如網站的ranking、首頁曝光、用戶社區虛擬價值等
最後說一下,機審系統在技術層面不複雜,它的核心是需要建立一套怎樣的審核規則(可能多個審核環節組合),以及詞庫的不斷累積運營。一般是機器和人工審核的雙重過濾。根據不同業務需求,信息量及風險權衡,人機審核比例會有所不同。
不廢話,直接上乾貨。
1、 文字內容方面
1)使用敏感詞過濾系統。
信息審核工作都是在信息審核平台上進行的,網站的運營審核系統中會預先設定一批關鍵詞庫並對片語進行排列組合,這批詞庫又會根據敏感性進行分類。系統會阻止用戶發布敏感辭彙,或將用戶發出來的含有敏感詞的內容直接刪除。 對於某些敏感性較低的辭彙,發出來不會立即刪除,需要經過審核人員過目進行二次審核。
2)建立反垃圾信息(anti-spam)機制。
我們經常會遇到一些垃圾信息,比如郵箱中收到的各種垃圾郵件、新浪微博的殭屍粉以及論壇中層出不窮的廣告貼等等。有人會不停的去尋找網站的漏洞以及規則,使用機器發布這些垃圾廣告從而達到營利目的。anti-spam主要是指通過技術手段對數據進行過濾和篩選,將我們認定為不合格的數據清理掉,將系統認為可疑的信息進行提示分類。anti-spam對審核工作也是一個相輔相成的內容。
2、 圖片內容方面
對於圖片內容的審核,傳統的審核方式主要依賴於人工。圖片不同於文字,無法提取關鍵詞,對於大多數互聯網公司在技術上無法達到,否則也就不會出現鑒黃師這樣的職業了。
另一種方式是引導用戶使用舉報功能。目前很多帶有社交屬性的網站和App,都會為用戶開通舉報功能。用戶在瀏覽內容中發現色情視頻、圖片等不良信息,可以通過點擊相應按鈕或者鏈接的形式,向網站管理員舉報,並由網站管理員完成刪圖或者封號等後續處理。從目前實踐情況來看,這個方式雖取得了一定效果,但仍無法杜絕不良信息的傳播。
現在還有種最新的使用人工智慧技術的審核方式。目前市面上已經有成熟的第三方公司提供API介面,如圖普科技的圖像識別雲平台,可以輔助網站進行機器審核。這種方式主要是基於深度學習圖像識別雲,通過針對目標特徵專門訓練的素材庫和識別模型來甄別存在的違規圖片。使用時卻很簡單,只需通過接入API調用識別服務即可。
如果自建系統做機器審核的話會非常坑爹。計算機視覺領域是技術含量非常高的領域,不僅在技術層面有著嚴苛要求,還需要大量的訓練數據的積累、複雜的圖像識別演算法、昂貴的硬體系統和相應的工程化開發的支持。技術、人才、設備、大數據缺一不可。尤其是樣本數量,直接決定著機器訓練後的準確度。以圖普科技的樣本庫為例,有超過1億的色情樣本和千萬級別的極端宗教主義樣本,你感受感受。
像七牛雲、融雲、UCloud、迅雷、酷狗、秒拍等大型互聯網企業都已經接入了圖普科技的圖像識別雲平台。七牛和融雲在自己的平台上也都開放了通用的鑒黃服務介面,如果你們公司數據放在他們那裡,可以直接調用這個功能的。
3、視頻內容方面
任何文件都有且只有一個獨一無二的MD5信息值,MD5可以說是文件的「數字指紋」。對於含有視頻內容的網盤或視頻網站,採取的方式是建立涉黃文件的MD5資料庫,用戶上傳後自動分析MD5是否合法,則能避免涉黃文件的重複分享。審核人員再對通過自動檢測的每條視頻進行審查。
網監有一個巨大的危險MD5庫,庫內藏著各種不能流於世的視頻。視頻網站都需要接入這個庫,並在實際審核中增加自己的庫存。此外,包括標題、簡介、評論等文字部分也是在審核的範疇。
通過MD5之後的視頻,第二步會經歷機器審核的過濾。機器審核視頻同樣是基於深度學習圖像識別雲,實際也是將視頻截圖,由機器審核每一張截圖的安全性。不過具體是3秒截一張還是5秒截一張,鬆緊度由視頻網站自己控制。
對於不能通過的視頻,機器審核視頻會給出兩類結果:確定不能通過的,這類的準確率幾乎能達到99.5%以上;僅作參考的,準確率在95%到97%,這可能意味著該視頻需要再次進行人工審核。從整個行業來說,機器基本能篩過99%的視頻,只有1%需要再次動用人工。如果是150萬的視頻,那人工只需要審核1.5萬個。
對於像優酷、愛奇藝這樣的大型視頻網站採取的是先審後發,而且更突出的是PGC部分的內容。然而在國內,多數UGC都是「先發後審」的,尤其在直播/短視頻領域,強調草根主播,強調時效性。由於每天新產生的內容量太大,為了減輕審核工作,他們也有很多竅門,比如短視頻領域中,會對新用戶和高危用戶的上傳會優先審核,是「重點關注對象」;明星、大V等賬號會被設置成為信任賬戶,默認他們發布的視頻不用通過審核。在系統方面,則會建立反垃圾屏蔽系統,記錄用戶行為、關鍵詞、頭像MD5識別等進行用戶和垃圾攔截;對於直播領域,則會要求在畫面播出前完成機器審核(直播一般會有5-60s不等的延遲),避免「造人事件」再次發生。最後提醒一下,視頻網站除了會對發布違禁視頻的用戶封號處理之外,還會把其IP彙報給網監,據說散布危害國家安全的視頻判六年。所以千萬別踩到雷。
UGC (User Generated Content)社區,即以用戶原創內容為主的移動互聯網線上社區,其前身是網頁端的論壇bbs,隨著移動互聯網的發展,逐漸演變成手機里的一個app。關於UGC社區涉及的範圍非常廣,今天主要和大家分享下內容的審核這一部分,以後慢慢整理運營過程當中的其他要點。
用戶原創內容的審核,無論從給予良好的用戶體驗角度考慮還是來自政府監管的壓力,都是社區型app必須要做的事情。不同量級的社區,審核的方式略有不同,此處針對答主所在的國內排名靠前的母嬰社區聊一聊海量用戶原創內容,該如何審核。
審核的目的
在講如何操作之前,我們必須先弄清審核的目的是什麼,有目的性地運營才能起到實質性地作用。社區型平台每天會產生大量由用戶自發形成的內容,有文字、圖片、視頻等形式,當然現在還有直播等形式的內容,在此不做探討。由於用戶層次的不同,產生的內容自然就有優劣之分,同時,有人的地方就會有商機,自然不乏廣告的存在。因此在審核過程當中,我們的主要任務就是充當「清潔工」和「淘寶人」。面對每天產生的千萬量級的數據,我們依靠「機器為主人工為輔」的方法審核用戶產生的內容。
一、我是清潔工
(1)對用戶進行分類管理
在審核之前我們需要先對社區用戶進行分類,對症下藥方能藥到病除。我們將用戶大體分為新人(註冊7天內的用戶)、KOL(Key Opinion Leader 關鍵意見領袖)、高危用戶(有過違禁記錄的用戶),其餘的皆為普通用戶。下面我們一一來說。
1、新人(註冊7天內的用戶)針對新人用戶,我們主要對新用戶發布的帶有圖片的內容單獨提取出來進行人工審核,這麼做的原因是什麼呢?
結合以往的用戶數據及用戶行為來看,新用戶中佔比95%的皆為潛水用戶(即只瀏覽不發帖不回帖的用戶),只有5%的新用戶會有活躍行為,而發布或回復帶有圖片的內容的比例則少之又少。通過大量數據研究發現,往往剛註冊不久就發布圖片的用戶一定比例上是以廣告居多,並存在機器刷廣告的行為。因此新註冊7天的用戶發布的帶有圖片的內容將直接提交給人工審核,圖片在未審核情況下顯示為【圖片審核中】,並且該帖子將被系統暫時沉帖(僅用戶自己可見,社區其他用戶不可見),待工作人員審核通過後放出圖片並系統自動取消沉帖。通過此舉,有效減少了垃圾信息對用戶及社區的傷害。
2、KOL(Key Opinion Leader 關鍵意見領袖,俗稱」達人「)
網紅經濟時代「KOL「這個名詞時常被人拿出來說,這一群人他們自身具有粉絲效應,憑藉自身的某些特長收穫大批的關注。
在我們社區,達人用戶(即獲得達人勳章的用戶)將被設置成信任ID,系統直接判定達人發的帖子為正常帖子,同時將達人發的達到一定標準的帖子列入優質內容庫,作為精選內容的備選。
3、高危用戶(有過違禁記錄的用戶)
有過違禁記錄的用戶,我把他們稱之為「高危用戶」,這一群體經常「好了傷疤忘了痛」,往往社區的懲罰剛剛解除,過不了多久,又開始「胡作非為」。因此針對這一人群需要做重點審核。
除了以上三類,其他所有內容我們將統一採用"機器為主人工為輔"的方法進行審核。
審核操作細則:
(1)沉帖
即只有用戶自己而已看見發表的內容,社區其他用戶無法看見。
此操作適用於一句話在社區簡單曬獎品、較為負面、較為暴露的兩性私密、疑似廣告、用戶質疑或向管理員提問,以及影響社區氛圍的內容。在人工處理的同時,系統也會設定某些關鍵詞自動沉帖。
(2)刪除
此操作適用於老用戶偶爾發布廣告帖,含淘寶店鋪信息、淫穢色情信息、傳銷、賭博、政治、暴力、反動、賣孩子、人身攻擊、惡意評論、傳播搶孩子等謠言的情況。
(3)禁言
禁言時間1天至10天不等,此操作適用於賬號昵稱或頭像含微信號、QQ號、QQ群、淘寶店鋪信息的用戶;發布兼職招聘信息、刷單信息、塑身衣、減肥瘦身、微商等廣告的情況。
在系統方面,我們會設定禁言操作會連帶刪除當天發布的所有帖子及回復。
(4)封號
此操作針對同一IP多次刷廣告等不良行為進行處理。
(5)黑名單、白名單
黑名單分為活動黑名單、加精黑名單、聯繫方式黑名單等,這些操作從字面上就可以理解,即列入黑名單的用戶將不能在活動中中獎、獲得加精等物質或精神獎勵。
(6)轉移圈子
將帖子內容不符合所在圈子的,轉移至相應的圈子。
(2)機器反垃圾(anti-spam)
關於反垃圾這一塊主要和大家分享下常用的一些審核機制。
1、建立並完善違禁詞詞庫
在長期的運營過程當中,由工作人員提交的違禁詞已經累計達到7000+,其中我們依據危害程度將其判定為「輕微」違禁或「嚴重」違禁,並對敏感詞所在的帖子或回復直接刪除或阻止發布,系統無法判定的則進入人工審核階段。依據違禁詞庫的智能檢測,能夠在變種垃圾發出的第一時間做出判定,從而減少相應的危害。
嚴重辭彙會被替換成***,輕微辭彙會被舉報
2、違禁號碼庫
資料庫會將系統刪除或禁言過的號碼記錄下來,作為數據沉澱組成違禁號碼庫,對用戶行為進行記錄。
3、重複發帖及回復系統自動阻止或提醒
用戶發布重複的內容,系統自動彈出提示【請勿發重複內容】
同時對於高頻次回復行為也會採取限制降低用戶灌水、刷帖的行為。
(3)人工審核
人工審核這一塊,為了減少工作人員的工作量,也可以多利用技術手段提高審核的效率,比如:
在後台搭建過程中,可以在人工審核列表採用置頂+關鍵字標紅的方式,例如微商品牌、聯繫方式、不文明用語等,都可以提到審核列表每頁的最上方,方便快速處理垃圾信息。
圖片和小視頻方面由於涉及到複雜的圖像識別演算法,因此更依賴於人工審核。
(4)其他:
舉報、反饋機制:
除了機器和人工審核,我們也設置了舉報按鈕,藉助社區用戶的力量,在一定程度上降低垃圾信息的危害。
二、我是淘寶人
社區內容的審核,除了上述有害信息的篩除,還有就是甄別出優質內容。
針對優質內容,我們常用的操作有加精和推薦兩種方式:
加精即該帖子成為精華帖,在社區帶有閃閃亮的標誌,也是即將成為社區小網紅的節奏,同時對待加精帖提供的曝光也比普通帖子高很多,並且自動進入【達人頭條】候選庫,以備篩選。
推薦即進入「首頁推薦備選庫」,以便工作人員快速篩選出優質內容推薦到首頁展示,提高優質內容曝光率並通過優質內容的展示達到駐留用戶的目的。
最後想說,社區優質內容的產出同樣也滿足「二八法則」,即20%的用戶貢獻80%的內容,因此對於這一部分用戶沒我們更要將更多的資源向他們傾斜。
以上就是目前我所接觸的社區UGC內容審核這一塊的運營工作,全文略粗淺,歡迎運營小夥伴們一起相互探討~~
人工系統都有,這自己開發的,我不負責審核工作。我偏用戶。
主要是策略的組合比如
一般有幾個手段:關鍵詞庫匹配+人工過濾,節假日和夜晚的值班策略。
比如普通用戶先審後發,關鍵詞庫嚴格匹配
高級用戶先發後審,關鍵詞庫模糊匹配
遇到站外襲擊的策略,遇到大規模撞庫盜號的策略……
更多的還需要根據每個公司不同情況分別定製
做過ugc的音樂網站。
其中也包含文章、圖片、視頻等內容。
說一下我是如何防止垃圾內容的
1、賬號註冊需要驗證郵箱或者手機號。
(我用的是需要邀請碼的方式,這個完美攔截註冊機)
2、用戶需要進行一個認證,這個方式就很多了,比如綁定qq,驗證手機等等。
未認證用戶限制內容發表數量
視頻網站分塊分割視頻是如何完成的 基於怎樣的演算法
更多的考慮可能是降低伺服器的消耗 視頻探嗅下載,會發現有很多個片段,一個視頻唄分割成十幾!就無法真正方便的使用像碩鼠一類的探嗅了,所以要麼不下載傳播,要麼就只能使用它專門的下載器下載了
可以跟優酷土豆展開ugc肉搏戰的只有騰訊視頻了,公眾號推送視頻必須來自騰訊視頻。
推薦閱讀: