打造機器鑒黃師，圖普科技未來要讓 10000 個唐馬儒都失業 | MindStore

01-29

如果希望參與到 MindStore 欄目報道，或者有相關項目推薦，請點擊我們網站頂欄「尋求報道」按鈕填寫相關資料。初創團隊的產品如若想獲得 MindStore 欄目的採訪，請將產品提交到 MindStore.io。

前不久的人機圍棋大戰，最終人類頂尖棋手李世石以 1:4 不敵 Google 出品的人工智慧 AlphaGo。

其核心原理採用了多層神經網路對圖像進行分析，同時運用深度學習演算法總結規律，最終得出戰勝人類高手的棋招。

實際上這套原理還能夠應用在別的領域，就比如上個星期登陸 MindTalk 線場的圖普科技，每天利用人工智慧對圖片和視頻進行超過 3 億次的鑒別，利用計算機的能力來發掘圖像信息中的價值。

目前已有數百家企業成為他們的用戶，其中更是包括了七牛雲存儲、360、映客、今日頭條、秒拍、等一系列非常知名的產品。

圖像鑒別，10000 個唐馬儒都干不來

互聯網的開放不僅帶來了自由，同樣也成為垃圾信息的溫床。最為人熟知的一個職位叫做「鑒黃師」，代表人物自然是「唐馬儒」，但實際上「唐馬儒」再多也滿足不了現在對於圖像鑒別和挖掘的需求。

最好的例子就是前不久爆出的「直播造人」，視頻和直播類內容的興起使得對內容的鑒定需求呈幾何倍數增長。

圖普科技 CEO 李明強

垃圾信息的問題在互聯網的文字時代也同樣存在，但相對比較好解決：不斷在後台更新關鍵字就可以完成屏蔽。但圖片和圖像相對複雜的多，正如圖普科技 CEO 李明強所說：

直播對於審核的實時性要求太高，同時在線的直播數量大，一不小心違規的東西就上線了。
傳統的解決方案是通過人力完成，所需要的人數會與主播成一個比例。通常都是好幾百人坐在屏幕前面持續對閃過的畫面進行篩選，如果發現不符合規定就進行人工處理。

相比之下，圖普科技給出的解決方案則更為簡單：上傳圖片（視頻直接截圖），我給你分析，然後把結果交給你。

並且篩選的維度非常豐富：色情識別、暴恐識別、是否旋轉、顏值、人物類別、廣告識別、是否戴眼鏡、頭髮長度、車身顏色、車標品牌、服裝風格、服裝美觀度等等。如果你還有別的需求，圖普也可以為你深度定製篩選規則。

使用流程也非常簡單，將圖片發送到圖普的雲處理端，然後就能夠接收到來自雲端的處理結果，同時反饋的還有機器對結果的確定程度（百分比）比如「圖普有多確定這張圖片是色情圖片、圖片里的人顏值有多高」。

這些複雜的維度即便是人也要花上個幾秒鐘來確定，而圖普所能達到的成績是 99.5% 的圖片都能夠在 0.2 秒內獲得鑒別的數據反饋。

計算機究竟是如何邁過看懂圖片這道門檻的？圖普究竟用了什麼黑科技？

一天 3 億張，如何根據數據看「懂」圖片？

同樣的一張魔方圖片圖片，人眼看到的是一個魔方，而計算機看到只是每個代表每個像素點的數據。雖說人對於圖像的識別能力也是日積月累形成的，但如何教會計算機看「懂」圖片一直是個難點。

「懂」這個字非常關鍵，日常我們會遇到的驗證碼就是個很好的例子。對於最簡單的文字驗證碼，計算機能夠通過分析圖片中的像素點的顏色數值，然後形成一定的筆畫結果，最終轉化為文字。

所以人們就開始對驗證碼進行不斷的升級，從更換、抽象字體到給驗證碼加上其他干擾元素等等，12306 的圖片勾選就屬於驗證碼中比較強力的一種。

8 張小小的圖片，裡面展現了不同的物體，然後根據提示勾選其中一個或幾個才能通過驗證。剛推出的時候瞬間所有搶票軟體都啞火了，後來他們想出一個辦法：通過數據請求獲得所有的圖片驗證碼，然後仍然是通過人工進行歸類，最終刷票需要驗證的時候通過圖片原始數據就知道應該勾選哪幾個了。

這種方式並沒有真正看「懂」圖片，只是利用人工完成了必須的鑒別環節，如果這個驗證碼的資料庫足夠大並且一直保持更新，破解就將變得非常困難。

只分析圖片原始數據這種方法在應對複雜顏色圖片的時候非常無力，比如之前通過鑒定圖片中肉色的比例（根據像素點信息來判斷）來排除黃色圖片的某軟體。結果是各種黃牛的圖片也變成了色情圖片，還有將兩根火腿腸看成大腿的結果。

人工在鑒別的準確度上肯定有優勢，但人不同於機器，總是會疲勞的，而且錯誤幾乎不可避免，還需要付出大量的成本和時間進行管理。

既然給不出規則，就讓計算機自己整理出規則

既然沒有辦法直接將人腦識別圖像的流程代碼化，那麼只好從頭跟人類學習了：通過識別大量的圖片來形成電腦的自我認知。在上周的分享中 CEO 李明強是這樣概括的：

最核心的原理與生物訓練的比較類似——應激反應，一種是獎勵一種是懲罰。做對了就強化他然後獎勵，讓他不斷強化重複自己對的行為；做錯的就去懲罰它，然後削弱他。
將上面一段換成技術名詞就是：有監督的深度學習技術。

當然首先需要給計算機裝備一個能夠不斷學習、自我成長的平台：多重神經網路。這個技術詳細解釋起來相當複雜，概括起來就是計算機會將原來單個、零散的解析度數據結合起來，從不同的維度進行分析，比如顏色、相似度、局部特徵等，同時與之前積累的數據進行對比，最終捕獲其中的規律，將圖像中的信息提取出來。

這是一個不斷成長的過程，與我們嬰兒時期父母親自教我們辨認圖像如出一轍。當然計算機的效率要高的多，同時還能夠獲得很多已經預先經過篩選的數據，讓「學習」過程具備了先天優勢。

所以在圖普科技提出的解決方案中存在這樣一個流程：如果計算機對於自己的判斷自信度達不到 99.5%，圖像數據就會返回給用戶本身，由人工進行二次判斷，不僅最大程度地保證了效果，同時還能從人給出的判斷結果對規則進行修正。李明強還給出了自己的看法：

人工複審這個方式是我們的首創。因為人工智慧存在一個陷阱：你可以用人工智慧很快的完成事情的 50%——比如很多 Demo 都能夠獲得很好的效果，但實用的時候又很不靠譜。
所以我們需要告訴用戶我們負責的 50% 確定能做好，我們不確定的 50%，你自己人工看一下。這樣問題就可以完美解決，當然未來完全不用人工也是我們的努力方向，這個準確率會像曲線一樣無限逼近，只要能夠越來越節省人力，我覺得我們的目的就達到了。

圖像的興起以及新數據的發掘

在問及視頻內容的興起，以及對圖普未來發展的影響時，李明強回答到：

人工智慧只是手段、工具，視頻的爆發是必然的。
內容肯定是從簡單到複雜、從靜態到動態、從不可互動到互動性、從分時到實時這樣一個趨勢去發展的，所以移動視頻這個爆發不是一個暫時的現象。
以後互聯網裡的內容很可能大部分都會以視頻語音這種人類最本質的溝通方法進行傳播，像文字這種類型的數據反而需要學習和理解。這就使得圖像識別成為新的信息鏈接關鍵點了。

傳統互聯網中的信息主要存在於文字當中，他們的鏈接方式主要是超鏈接，通過無數個超鏈接，這些內容形成了一個龐大的庫。但是落在圖像身上之後，超鏈接的錨點就丟失了，因為你沒有辦法直接知道兩個內容是否關聯、哪些內容是關聯的。用李明強自己的話來說就是：「圖像識別技術在現在這個圖像和視頻時代，將會成為一項基礎服務。」

所有內容都需要各種各樣圖像識別的介面，從各種維度去分析圖像和視頻，這樣子才能夠構建以圖像和視頻內容為主體的互聯網 2.0 時代。

李明強還拿了他們一類非常典型的客戶——視頻網站/直播網站來舉例：利用圖普的技術對用戶的上傳的內容進行分析，然後將獲得的反饋與用戶連接起來。甚至於能夠成為精準廣告投放的根據。而圖普科技的價值就在於：

在即將到來的圖片和視頻內容時代，為企業提供各種連接能力和增值服務，構建圖片視頻時代的新互聯網業務模式。

人工智慧創業火熱，請保持清醒

當人類輸掉世紀圍棋人機大戰之後，中國湧現出了好幾個人工智慧項目（包括同樣著眼於圍棋的人工智慧項目「異構神機」），韓國還專門從政府中撥款扶持人工智慧的產業發展。

對於為何人工智慧最近呈現出一種全面爆發的態勢，李明強這樣回答道：

人工智慧有三個關鍵，一個是數據、一個是計算能力、還有一個是演算法，這 3 方面正好最近都成熟了。因為所有要素都到齊了，所以呈現出了一個大爆發的現象。
我們的最終目的是讓機器睜開眼睛，去理解真實世界。

不過對於火熱的「新風口」——人工智慧創業，李明強還是表示出了一種謹慎。他認為類似圖普的人工智慧平台已經比較成熟了，但仍然存在很多機會。

如果想利用人工智慧這個角度切入創業，還是需要先從人或者行業的角度去出發。究竟有哪些東西可以通過人工智慧的方式去優化，提高效率，降低成本。這樣才是符合商業路徑的。
在每天與昨日都有大變化的互聯網世界，新產品、新團隊以及新模式層出不窮。他們中的一些雖然發展時間不長，卻帶來了讓人眼前一亮的新想法、新突破。本期 MindStore 熱點專訪採訪對象是：圖普科技。
本文是 MindStore 採訪第 77 篇。