Facebook 機器學習那麼厲害,為什麼審查視頻內容還需要大量依靠人力?

今天看到這樣一條新聞:Facebook招募3000人審查暴力直播視頻_cnBeta 最新消息_cnBeta.COM

然後據說現在有 7500 人了……覺得很詫異啊,在直播視頻中通過某種特徵識別出暴力內容,這種演算法不是應該很成熟了嗎?


關於目前技術的局限性前面幾個答案都說過了,追加很重要的一點,也是個人認為在內容審查中最難的地方,就是標準的定義和執行。

首先是需要定義暴力內容的範圍。看下facebook發布的community standards(社區公約),可以發現涉及人權、虐待、明顯威脅以及傷害人身安全的畫面、恐怖主義的都算做暴力內容。

這就足夠清晰了嗎?離可以執行還差得遠~

(此處為YY)負責審查的A同學說「啊,這個畫面里有人被打耳光了,算不算暴力內容?」 (堅定地說算);B同學說「誒,我看到一個燒土耳其國旗的直播啊,要不要攔下來」(此時懵b中)

發現了吧,標準要定義到細節!!考慮到各種可能性!語音、畫面、以及作為多國運行的平台,不同文化/法律背景也都要考慮到,還包括需要考慮國際局勢的變化(大寫的心累)

於是需要定義可執行的審核標準,省略N字搜索挖掘的過程,我們來鑒賞下facebook的標準有多細(qi)致(pa)

這裡高亮幾條:

  1. 【暴力畫面(Graphic Content】第3條,偷獵動物的畫面需要被刪除,偷獵瀕臨滅絕的動物內容需要上報
  2. 【暴力畫面(Graphic Content】第4條,屎、尿、嘔吐物、精液、膿、耳屎(這也管?)需要被刪除,例外情況是卡通的米田共是沒問題的,卡通的鼻涕也豁免
  3. 【暴力畫面(Graphic Content】第67條,內臟器官、骨骼、筋脈等照片是不可以的,但是深度傷口、大量的血是可以展示的;只要不露出內部,被碾碎的頭部、肢體也是可以展示的
  4. 【IP黑名單國際合規(international compliance)】 帶有仇恨言論的對大屠殺的否認行為,所有針對穆斯塔法 阿塔圖克(已逝土耳其革命家)的攻擊行為(圖像以及文字) ;庫爾德地區的地圖;燒土耳其國旗的畫面

啰嗦完了上面這一系列過程,再看如果想通過機器學習識別這些內容,需要幾步?

  1. 大量語音、畫面、文字的樣本數據累積(相比正常的視頻畫面,這些問題畫面佔比相對較少)
  2. 訓練模型 調優模型(這裡不是指一個模型,是N個模型;比如語音轉文本需要一個,文本匹配需要一個,畫面分類需要好幾個,OCR識別的需要1個等等)
  3. 應用在審核中( 準確率只有80%怎麼辦?保召回還是保準確?有多少人,審多少內容)

對於標準明確、不隨時間改變、大家有共識(好執行)的內容審核,以上一切都相對來說在機器可以學習的範疇,但也很難做到95%以上的準確和召回。就是說,要麼會漏掉,要麼會誤判。所以最好的辦法就是機器初篩,把可疑的都交給人去確認。以及還有個很嚴肅的問題,標準變了怎麼辦?!類似這個月不能提土耳其,下個月不許播阿富汗,下下個月不能攻擊特朗普這種標準,就只能依靠人力了。

另外關於這兩個平台的規模,附數據:

  1. 2012年FB有8億多用戶的時候,只有差不多50個人左右的審核團隊,外包給oDesk
  2. 2017年Q1 FB有19億用戶,加上Youtube的內容(13億用戶,平均每分鐘上傳300小時長度的視頻內容 ---來源 Youtube Statistics - 2017 謝謝指正)

這麼看就不覺得7,8千人多啦~ FYI 國內快手等公司審核團隊規模也不小


視頻直播本身就很難監控,很多情況難以準確預測。

就像 Facebook Live 上直播謀殺的那個變態,你舉報了也不一定有用,在謀殺行為未發生之前,管理員也難以做出判斷——他是在開玩笑還是認真的?

機器學習還沒那麼厲害,機器智能也需要與人配合。

機器篩選出可疑的視頻,人工來最終確認是否匹配,這樣做的成本更低,識別準確率更高,從企業的角度考慮,當前是最優解。


聽說過綠壩娘么,一群人穿著泳裝走來走去,或者一群裸男在健身房裡鍛煉,以及某些小黃片的片段,對於機器來說不一定有多麼明顯的差別,都是一群穿的比較少的人,更別說小黃片本身也常見這幾個場景,太容易誤殺了。電影里的血腥砍殺場景和現實中的暴力場景,同樣不見得有什麼明顯區分。

目前的技術,撐死把所有可能的視頻找出來之後再交給人員手動篩選,也就是縮小查找範圍,輔助工作罷了。


機器學習也需要訓練資料啊,區別黃色電影和藝術電影,恐怖片和暴力視頻,對這種高度抽象的東西分類,肯定需要大量人工標註的資料進行訓練。不管機器學習最終能不能解決這個問題,人工標註這一步是少不了的。


3000人,每個視頻就算看30秒吧,一天看10個小時,也就能處理300W個視頻。對比一下ytb,每天分鐘有300個小時的視頻上傳,fb不知道,但是應該不會有量級的區別。並且實際有效工作時間不可能有這麼高,所以肯定也有機器學習的部分,只是把可疑的視頻發給人進行審核而已。


這其實還是一個技術問題:技術可以解決觀測內容,但沒有人的想像力,俗稱「腦補」,大部分人在看到黃色圖片興奮時,大多數其實是靠自己的想像力催眠自己。前面有一個答案接近了,可以用知識圖譜的方式試著解決,但效果並不是太好。

現在最好的鑒黃工具,只能做到依靠不同環境判斷是否涉黃(這裡不探討露點情況),同樣露出大部分肢體,如果在泳池一般不算涉黃,如果在餐廳你裸露太多,甚至穿個比基尼,就具有性暗示了,就有可能涉黃。

人類是怎麼判斷呢?我們在看圖時,直接判斷出這個女性角色可能的下一步是否可能有性暗示,有沒有黃色內容,靠的是女性角色的神態。跟環境的關係很小了,即使圖片的環境在泳池,不一樣的女性神態,拍攝角度,也有可能涉黃,但對於演算法來說很難判斷。

另一個方面,演算法在牛,也有可能判錯,需要人做二次判斷或篩選,使準確率達到工業級別。


你要機器學習怎麼區分哲 ♂ 學片和一般的摔跤。


機器學習首先需要大量數據。現階段其主要特點是記住數據,並且具有一定的泛化能力。

但是因為機器學習本身沒有邏輯,沒有知識的學習理解和遷移,因此泛化多了,就讓人啼笑皆非了。說不定把桃子泛化成了乳房。

為了避免尷尬,秦始皇任早期員工的成功公司決定招聘3000人來解決這個問題。起碼人有常識。


現有的人工智慧,有多少人工,就有多少智能。


這個我必須回答一下,有一天看到郵箱中有一封招聘郵件,招聘視頻內容審查員,那郵件一看就是垃圾郵箱的長相,發件人的名字一看就是印度人,結果我當時好奇心突起,隨手回了一句多少錢?就是特別沒禮貌那種,就是一句話,多少錢?關鍵在於這發送鍵一摁下去,我的電話立刻響了起來!我一看,還真是那郵件里hr的電話,給我整懵了!

這不會是詐騙電話詐騙郵件吧!關鍵是誰把我電話賣了!我就看著電話響,沒接,然後又打來了,繼續不接。 然後hr給我發郵件了,說給我打電話沒接,工資的話是年薪35k。

我、、、、再也不回垃圾郵件了。


我們先來看幾條facebook的審核標準:

對於一些非性虐待或欺辱兒童的照片,如果不含有慶祝虐待成分,它可以被保留;

對於一些動物虐待的照片可以被分享,如果有特別令人不安的畫面,它會被加上「令人不安」的標記;

通過手工作品展示的裸體或性行為允許被分享,但是視頻形式的相關內容會被刪除;

只要沒有裸露鏡頭,墮胎視頻允許被展示;
類似「有人要射殺特朗普」的句子規定應該被刪除,因為作為國家元首,他應該受到保護。但如果是「想掐這個混賬的脖子」或者「去死吧」類似的句子將被允許保留;

如果有用戶在平台上髮狀態稱,未來五天或更久之後要自殺。這樣的帖子也將會被保留。因為用戶發表自傷性的內容有助於其宣洩和表達,刪帖可能反而會阻止他們的表達。但在最近發生的持續不斷的自殺直播事件發生後,這些帖子可能需要報備相關部門。

通過這幾條還比較簡單的標準我們可以看出:

1.視頻的審核結果不是非黑即白的,沒有完全清晰的界限。目前Facebook的用戶近20億人,如果要讓所有人對同一條內容達成共識是一件不太可能的事情。這其中總會有很多灰色地帶,比如諷刺和不恰當內容之間的界限就很模糊。機器審核只能把一些比較極端的比較容易判斷的內容,如虐待兒童和恐怖主義屏蔽以外,人工審查員是否需要刪除內容的決定非常複雜。很多灰色視頻即使人來審核不同的人也有可能是不同的審核結果,這部分肯定需要大量人工審核。比較嚴謹的公司可能同時讓兩人審核,如果兩人審核結果不同,則由經驗比較豐富的人再複核。

2.審查視頻的標準和機器學習的演算法都是動態變化的,比如最近發生的持續不斷的自殺直播事件後相關自殺帖子可能需要特殊處理。一般審核業務流程由系統審核,人工審核,投訴,申訴,審核標準更新等流程組成,人工審核發現的一些新問題會交給標準委員去核實,然後標準委員會去修改規則。

3.機器學習不是萬能的,尤其是在存在大量灰色場景,不是非黑即白的場景,機器學習基本不可能比人工更智能,比如動物虐待這種視頻如果依靠機器學習系統識別肯定非常難,這部分只能依靠人工審核。


類似的challenge在kaggle看見過。

Google Cloud amp; YouTube-8M Video Understanding Challenge

如果能tag video的話,我認為離censor內容應該不會太遠了吧。


說不定Facebook就是為了給他們的機器學習系統提供貼好標籤的訓練集


這問題讓我想起之前看的一個搞笑內容,說的當今智能機,都說智能了,為什麼老是提醒我們內存不夠,不會自己適當清楚內存嗎,沒電了不會自己充嗎。


機器好騙,人不好騙。


一說這個我就想到我在百度雲盤上存的那些毛片,都陣亡了。還有一些暴露點的寫真也陣亡了。所以還是人工審的好,至少能把寫真留下。


別說視頻了,就是文字,前幾體總事件,網友和網管捉迷藏,在各種相關問題回答,或提出各種你看得懂但沒一個關鍵字對得上的問題,或發表各種映射文章。針對這個目前機器還是太死板。


在直播視頻中通過某種特徵識別出暴力內容,這種演算法不是應該很成熟了嗎?

你確定嗎。。。我覺得這是你的主觀臆斷

除了學術論文自己argue一下在玩具數據集上的動作識別performance,目前商業中壓根就沒有十分成熟的解決方案,我說的十分成熟至少是接近人的能力,現在的ai做視頻審核,尤其要保證寧可錯殺一千不可放過一個(高召回)的前提下,連6歲小孩的識別準確度都沒有

同樣的,還有鑒黃等問題。我司某app目前日均視頻/直播量屬於國內前三,在鑒定噁心/暴力/色情/反動上的工作也算有一定積累,但是目前想要召回率在90%以上時候的準確率達到30%依然是可望不可及的,到一個可用的標準至少50%+的準確率才行吧,在技術沒有大突破的情況下很難達到。

這裡面有一些機器學習的根本難題難以解決。比如在鑒黃等領域的極度樣本偏斜問題,以及測試場景與訓練場景的分化問題,導致機器學習方法哲學上的不適用。個人感覺要攻破這個難題,引入知識圖譜是必要的,但是鑒於知識圖譜和深度學習的結合即使在學術界也屬於未來課題之一,所以工業界更是沒有成熟的應用。

個人目測。facebook即使AI技術全球第一,在保證90%召回的情況下,對偏斜樣本如暴力色情視頻的準確預測當下最多最多也就到達30%,這時候人工審核還是很必要的。


我靠,那肯定得需要人工了,機器再智能,那也是機器呀。人才是最聰明的動物。


從內容本身入手的確很難做,樓上很多答案都解釋了原因。。。

業界一些常用的做法,除了視頻分析外,還有就是對於視頻傳播後的用戶數據的分析,比如恐怖片和暴力視頻,ML分類器的結果可能是類似的,但是它們的用戶舉報數和舉報率是很不一樣的。。。這樣通過一個通用的視頻分類器,加上分析用戶舉報數據,來找到那些可疑視頻,然後交給人工審查。。。雖然有點事後諸葛亮,但也是目前技術條件下某種trade off了。。。


沒有很成熟。


因為那是視頻呀。

不過現在實時性系統也可以做到了,30fps以上處理速度是可行的。但是問題來了,怎麼判斷是不是違規視頻呢。label不好打呀


舉個簡單例子, 【政治正確標準和情感】與【後天機器邏輯和理性計算】有關係嗎?

從唯心唯物去想吧

感慨下:

人,之所以可愛又可恨,可生又可殺就是因為處於純生物、純神性,純理性以及純感性的中間混沌區。

機器學人不會變成人,更可能否定「人感性的部分」,產生一堆「人」不喜的結果。

理性上無法教會機器「難得糊塗」,無法定義什麼是「糊塗」,無法接受機器不可控。

目前感覺更多趨勢,是一部分人在創造AI同時學AI被AI改變,變得不像「完整的人」,自己覺得理性客觀,實際不招"人"喜歡。

但他們逐漸在掌握物質生產力、掌握話語權,變成既得利益者,隨便就給人扣上「反智主義」大帽子,未來對「天然有趣的人」很不友好。

凝視深淵太久,自動變成深淵。

每個人內心都有類似希特勒的一部分,他表現出的對象只是一部分人,猶太人等,工業化消除更方便了每個人心底都有的反人類潛在基因。

好在歷史進程不是純粹線性,一時半會兒人類還消失不了。

但人類的確是在逐漸被自己發明的世界淘汰。地球最終還是有救的。


推薦閱讀:

TAG:Facebook | 機器學習 | 計算機視覺 |