招2000人來審核內容,他們是今日頭條的數據勤雜工還是機器學習的訓練師?

今日頭條的跨年並不是在興奮與喜悅中度過。12 月 29 日,北京市互聯網信息辦公室針對今日頭條「持續傳播色情低俗信息、違規提供互聯網新聞信息服務」等問題,責令其「立即停止違法違規行為」。

這是官方在拋出「演算法有沒有價值觀」、「機器有沒有溫度」等系列命題之後的最後一次「強幹預」。雖然,今日頭條的平均用戶停留時長已比肩 Facebook、微信等黑洞級應用,但其 「琳琅滿目」的信息呈現與用戶的期待依然有不小的落差。如頭條所倡導的「演算法沒有價值觀」,用腳投票的用戶也沒有價值觀,只有好惡。

在六個「重危」頻道被整頓 24 小時並將「新時代」這一「價值觀頻道」設為默認後,今日頭條的開年第一件大新聞是:在天津招聘 2,000 名內容審核編輯崗位,加強內容審核。該職位要求熱愛新聞,關心時事,具有良好的政治敏感度和鑒別力,要求本科及以上學歷,黨員優先。而此前今日頭條的審核團隊已逾千人規模。

其中的被動式應戰意味顯而易見,透露出的一個重要的信息就是:包括今日頭條在內的個性化推薦引擎的演算法在性能調優、千人千面這件事上貌似失效了。大家都看到了髒的東西,只是內容不一樣而已。於是,我們不由得去思索一個問題:這些個性化資訊提供商真的是黑燈工廠嗎?在「下一代搜索引擎」面前,人與機器的關係是怎樣的?

我們先從即將為今日頭條工作的 2,000 名「內容審核編輯」入手,猜猜看他們的工作是什麼。落點在編輯,核心卻在審核,甚至是在數據標註。畢竟一個號稱沒有編輯的推薦系統怎麼可能需要 2,000 多名編輯?審核的含義就顯而易見了,頭條號的內容(數據)能不能分發、發出去的能不能展示、怎麼展示,被迫務實的今日頭條需要緊急解決的就是減少「低俗色情」內容了,機器不行人來湊。

今日頭條已經越來越離不開繁重的人力勞動了,這家「高舉高打、向 BAT 全面開戰、作戰半徑越來越長」的小巨頭正在通過更多的、更底層的人力勞動來夯實地基,完善數據標註和分類,彌補低水平人工智慧的缺陷。當然,需要這麼做的不僅僅是今日頭條,還有整個人工智慧領域。

人工智慧的核心是機器學習,它涉及了演算法、統計、概率等多學科,那些看似簡單甚至笨拙的語音反饋、圖像搜索和個性化內容推薦,都基於無數繁複單調的人力勞動。就像蘋果公司帶動的智能手機產業鏈一樣,人工智慧這一輝煌的朝陽產業,依然離不開三四線城市的勞動力、在校大學生以及大量社會兼職人員的工作,今日頭條此次在天津釋放的 2,000 個審核編輯名額正是瞄準了這一群體。

人力勞動與人工智慧的關係最直觀的體現正是由今日頭條所掀起的新聞客戶端「個性化推薦革命」了,在此類產品中,內容的多級分類、垃圾內容的清洗及過濾、用戶行為畫像都涉及複雜的機器學習,而需要人工標註數據去餵養機器的可以是分詞、關鍵詞,也可以是文章分類、文章中圖文的比例。如果將一整套演算法比作一個健全的有機系統,每一個維度的數據都是構建這套系統的神經元,它們或多或少會影響用戶展現層,可謂是差之毫厘謬以千里。

那麼,那些你喜歡的、你不喜歡的內容是如何從數百萬級的內容庫里被選擇推薦到你的信息流里?我通過與幾位個性化演算法工程師、今日頭條的前產品經理和從事這個「內容審核編輯」工作運營人員聊天,了解到了密集的人力勞動是如何餵養機器智能的。

分詞標註:理解你的興趣之前,先理解漢字的意義

眾所周知,英文是以詞為單位的,詞和詞之間靠空格隔開,而中文是以漢字為單位,把中文的漢字序列切分成有意義的詞,就是中文分詞。中文自然語言處理(Natural Language Processing)中,分詞是必不可少的一個過程。

個性化推薦引擎,最重要的就是把有意義的信息前置,其核心是相關度排序。分詞準確與否直接影響排序,影響你的信息流列表裡是否都是你個人感興趣的東西。

即便是有了成熟的分詞演算法,也很難解決中文分詞遇到的困境。因為漢字本身的多義性和模糊性使得在機器看來詞和句充滿了歧義。而且一個健康的語言系統也是在不斷進化中,每天都會有新的辭彙產生。就歧義而言,同樣的一句話,可能有兩種或者更多的切分方法。比如,乒乓球拍賣完了,切分成「乒乓球拍/賣完了」和「乒乓球/拍賣完了」就是完全不同的意思。

第二個需要人力不斷去跟蹤的就是漢字的「新詞」,術語是「未登錄詞」,即沒有被收錄在分詞詞表中但必須切分出來的詞。在這部分最直觀的產品體驗就是輸入法的雲詞庫,每天都會有運營人員統計新詞上傳雲端。而在個性化推薦系統里,新詞的識別也要以人力為主,輔助機器去不斷添加並處理。

圖 | 機器學習在技術層面的應用

處理完有意義的詞,還需要排除無意義的詞,這就是所謂的停用詞庫(Stop Words),略相當於過濾詞(Filter Words),術語為「非檢索用字」,因為要節省存儲空間和提高搜索效率,以及出於法律及政治的訴求,搜索引擎需要自動忽略的一些過濾詞也需要人工輔助機器標註。

停用詞包括兩部分,一種是使用十分廣泛甚至過於頻繁的詞,英文里如「I」、「is」、「the」,中文如「我」、「的」、「了」,幾乎在每個文檔里都有體現,但很難保證搜索的準確性及推薦無意義的結果,也需要過濾。

然而,需要人工干預的停用詞更需要在不同場景下的詞庫里去維護,比如在體育新聞中,「比賽」這個詞的價值就不是很大;在娛樂新聞中,「演員」就不是一個特別有意義的詞。但是這兩個詞如果放在科技新聞里就不一樣了。

作為理解文本最核心的工作,分詞標註其實是自然語言處理的一部分,而離開了大量的基礎的人力工作,機器對文本的處理其實就是一句空話,除非你有一個現成的、龐大的、動態的資料庫。而在許多公司,自然語言處理部分已經完全外包了,靠售賣成型的資料庫已經是一門生意了。

分類標註:你需要忘記的文章分類,恰恰是機器需要記住的

分詞停詞的標註牽扯到演算法模型里對文本的識別,文本本身也需要通過建立訓練集來輔助機器學習。在一個完善的個性化推薦系統里,文章分類樹的構建也相當有必要。

文章分類是最簡單的個性化步驟,在大而全的門戶時代,會通過頁面的版塊來區分你的閱讀興趣,現在的個性化產品雖然也排設了各分類頻道,但其主要功用是滿足一些垂直喜好。個性化水平夠高的話,以興趣推薦為主的首頁流量會是頻道的數倍不止。

個性化資訊產品的一個優勢在於,從各渠道爬蟲抓取過來的內容天然自帶分類,比如抓了新浪科技頻道的內容,那麼這些文章自然帶「科技」分類標籤。此類文章會出現在正確的分類頻道。然而,這是一種粗顆粒度的「個性化」,完全談不上興趣推薦,且抓取渠道的多樣並不能保證所有文章都自帶標籤,從門戶到個性化推薦,最重要的特徵就是興趣顆粒度的細化。

以前,用戶喜歡看科技類內容,現在,這個興趣溶解為 iPhoneX、共享單車等標籤。因此,一個合理的文章分類是包含至少三層的分類標註過程。即一級分類(科技、娛樂、軍事等標籤);二級分類(一級分類的分拆及內容源分類);三級分類(一個龐大的標籤庫,一篇文章里最關鍵的主題詞等)。

以某手機瀏覽器在做的分類工程為例,機器學習想要實現分類準確性,需要通過百萬級文章的訓練數據去習得。負責人楊某告訴我,首先,需要建立一個 150 萬篇的資料庫,然後由機器進行原始分類,30 多個人耗時一個月進行校審,正確的分類繼續標註二三級分類,錯誤的要進行糾正重新進行分類,而只要準確率能達到 90%,就是工程師可以接受的水平。

在最終實現的完整分類樹里,一共有 27 個一級分類,300 多個二級分類,將近 10 萬多個標籤。以一點資訊為例,用戶訂閱的關鍵詞或者分類,正是基於這種龐雜的分類標註所形成的文章與關鍵詞之間的映射。

圖 | 文章的三級分類

人工干預:讓你困擾的推薦興趣列表,是一堆人設計的邏輯重疊

如果在你的理解中,機器學習是根據一些粗笨的規則和你的興趣關鍵詞為你生成興趣推薦列表的話,那就大錯特錯了。你可以打開你的推薦頁面往下刷一刷,這裡邊至少包含了多種關聯性推薦的內容。

有你關注的了賬號、有被強制展示給你看的時政新聞、有今天最火的短視頻、有運營編輯認為今日不可錯過的 100 件大事。當然,現在可能會有2,000名審核編輯想讓你或不想讓你看到的東西。客觀而言,現在呈現在你面前的信息流其實很難做到完全的個性化,這個看似簡單讓人「震驚、轉瘋了」的列表裡重疊了太多的運營邏輯。

演算法模型的核心是預判+反饋,對一個新用戶而言,你喜歡看什麼東西?機器需要預測,即使對今日頭條而言,抓取其社交關係鏈給一個初始化列表,但這些是否能真正體現你的閱讀趣味就是另外一說了。因此,在這個初始列表裡,有一個候選池的概念,以「全局最熱」、「用戶所在城市最熱」、「用戶最關注類別最熱」、「用戶最關注關鍵詞最熱」組合構成信息列表。

看似很關心用戶,但是站在「個性化用戶」的角度而言,這種體貼又有什麼用呢?人工可以干預的不像以前頁面運營的單條維護更新,而是變成一個「文章庫」。因此,在一個主模型的基礎上,還需要引入其它次要邏輯,以更好地「模擬」用戶的興趣列表。

在號稱沒有編輯部的個性化資訊產品部門裡,依然存在大量的垂直領域的編輯,他們的主要職責就是設計人工干預準則、干預個性化排序。以鳳凰新聞客戶端為例,依然存在著至少 30-50 人的編輯運營團隊。

目前,編輯精選+個性化推薦的組合首頁列表成為主流,這一肇始於搜狐新聞客戶端的內容推薦方法成為門戶新聞客戶端的選擇。鳳凰新聞客戶端運營負責人告訴我,編輯每天會將熱門、時效、有格調的新聞放在一個動態的精品內容庫里,少則幾十條、多則一百條,以平衡新聞的時效性與個性化內容的可讀性。

人工干預可以保障信息流的健康度和豐富度,對於提升用戶體驗有非常重要的作用,一定程度也能調整模型的方向。人工干預的規則也會以 A/B 測試的方式驗證規則的數據效果,但唯獨不能保證的是——這是不是你想要的個性化?

垃圾處理:一個勞累且持久的系統工程

這正是即將入職今日頭條的 2,000 名審核編輯需要做的事情,在未來的一段時間內,他們有可能將看遍今日頭條上所有內容空洞、價值低的垃圾內容。

標題黨、情色低俗、廣告營銷類的帖子在個性化資訊產品里並不少見,而在被官方媒體及用戶詬病的背後,則是平台不遺餘力地反垃圾工作。如果將大面積自媒體化後的資訊產品比作淘寶的話,那低質量內容就像是假貨,雙方的博弈勢必是一場持久戰。前今日頭條演算法產品經理透露,事實上,大多數資訊產品里的垃圾內容含量都在 30% 以上。

反垃圾系統裡邊有兩種邏輯,一種是過濾;一種是通過機器學習識別和過濾垃圾內容來輔助推薦系統。前者見效快,但工作量大,且不利於推薦系統的學習成長。就像那些敏感的家長對待性教育的態度,其隱患在於這種歸類與識別在機器的觀念和經驗里是徹底缺失的。在某手機瀏覽器的信息流部門裡,僅審核工作人員就有 20 多個,需要 7*24 小時工作,人均日審核量就超過 1,000 篇。這個審核數據量剛好和今日頭條對審核編輯的職位描述一致。

圖 | 通過屏蔽來過濾垃圾內容的人工操作後台

過濾的做法簡單粗暴,通過標題/正文的關鍵詞或賬號來屏蔽。然而,事實上,直接在標題中踩中違禁詞的概率實在太小,而在正文里踩中的概率卻很大。且辭彙本身則在不同語境下發揮不同作用,誤殺的概率也大到可怕。

通過機器學習識別和過濾垃圾內容更有利於推薦系統的良性成長,對垃圾內容進行文章特徵、垃圾類型和發布源等人工標註,再結合上述三個維度的標註,將這些數據提交給機器進行學習,進而實現對垃圾內容的機器審核,我想,這應該是數千人規模的審核團隊需要實現的終極目標。不過因為工期過長、監管風險和市場窗口,等你的機器學習趨近成熟的時候,早已沒有了用武之地,這正是今日頭條所面臨的尷尬局面。

某 Android 桌面信息流演算法工程師告訴我,反垃圾系統的關鍵在於給新文章打上是否是垃圾的標記,這符合機器學習分類問題的定義。例如,現在已經有了 10,000 篇垃圾文章,再找到同等規模的非垃圾文章,挑選機器學習模型訓練一個分類器,這個問題就迎刃而解了。針對反垃圾系統,機器學習領域常使用準確率和召回率來判斷系統的優劣。

準確率 = 系統預判垃圾文章中真正垃圾的文章數目 / 系統判定垃圾文章數目

召回率 = 系統預判垃圾文章中真正垃圾的文章數目 / 真正垃圾的文章總數

比如系統里總共有 1,000 篇文章,反垃圾系統判定其中 100 篇文章為垃圾,在這 100 篇被判定垃圾的文章中有 60 篇真的是垃圾文章,此外還有 40 篇垃圾文章被標記為非垃圾。這樣準確率就是 60/100=60%,而召回率也是 60/100=60%。準確率能夠幫助判斷標記垃圾文章的性能,而召回率反映了系統能夠處理的垃圾文章覆蓋範圍。這兩個概念也被用在數據標註、分類標註中用以判斷演算法性能。

反垃圾系統需要在準確率和召回率之間進行平衡,如果我們把所有文章都標記為垃圾,那麼召回率就是 100%,而準確率就會變成 10%,這樣的話用戶就看不到任何文章了,顯然這是不合理的。因此,機器學習分類演算法需要做的事情就是引入通過人工標註的更細緻的文章特徵維度,包括增加文章的特徵、多模型融合、加大訓練數據量等,以提升準確性。

在優化了特徵與模型方面的工作,將準確率和召回率最終都提升到 85% 左右,這是一個可以接受的及格數值,不過這意味著依然有 15% 的誤差內容需要人工去干預,並需要繼續加強對機器的訓練。

總之,搭建一套完整的標註系統,並對數據進行持續維護,這僅僅是個性化推薦需要完成的原始積累,而將這四部分協同操作並運用在演算法模型中,也僅能得到一個及格的個性化信息流產品。在客戶端展現的另外一維,還不能缺少對用戶行為數據的理解及清晰畫像,要實現這種匹配關係還有更長的路要走。

前幾年,國內聚焦於今日頭條模式的個性化推薦系統有大小公司超過 30 家,其展現形式包括原生 APP、信息流 SDK、手機瀏覽器,還有那些企圖刻意拉長用戶停留時長的產品。這種模式很快被複制到了土耳其、阿根廷、巴西、印尼等國家。然而,以減少數據標註維度、降低推薦系統性能和犧牲用戶體驗為代價的個性化資訊產品,都不可避免地走向了品牌缺失、產品低留存甚至是監管關停。

可喜的是,有不少人從專業的角度發現了商機。去年 8 月,提供數據標註眾包服務的「星塵數據」獲得天使輪投資,矽谷出身的創始團隊正是瞄準了這個行業的積累不完善、水平層次不齊。此前,成立較早的「數據堂」已成功掛牌新三板,此外還有愛數智慧、泛涵科技、龍貓數據、丁火智能等都已獲得融資並著手構建自己的數據標註平台。從產業的角度來看,缺失的一環正在補齊。

機器演算法通過廉價勞動力的單個無意義成果的累積實現質的飛躍,這座智能、精巧的大廈的建設工作從以前高素質新聞從業者手中遞交給了簡單培訓即可上崗的重複工作者。對高級人工智慧及深度學習而言,讓一些人在機器面前無所適從、找不到工作價值是我們邁向人工智慧時代必然要經歷的陣痛。

所以,當你在招聘網站上看到「數據運營」或者「內容審核」的崗位,就需要注意了,這多半是一份看不到頭並很難在短時間內體現個人價值的工作,因為你的角色是機器的訓練師。對龐雜的演算法而言,這些工作是不可或缺的,並且是最基本、最有價值的一部分。但是放眼激烈的商業環境,能否在數據標註這件事上保持足夠的耐心才能最終決定所謂的「個性化」產品走多遠。


推薦閱讀:

《Generating Factoid QuestionsWith Recurrent Neural Networks:nThe 30M Factoid Question...》閱讀筆記
RNN Tutorial(1)
阿里知識圖譜首次曝光:每天千萬級攔截量,億級別全量智能審核

TAG:人工智能 | 机器学习 | 自然语言处理 |