人工智慧or人工增強?特寫 | 人工智慧背後的人

在大部分人看來,人工智慧是個有些「科幻」的辭彙,代表小說電影中和人類長相相似、或溫柔或冷酷的機器人。

稍微熟悉一點,這份印象又變成冷冰冰的 GPU 陣列、複雜多層的神經網路和一大串佶屈聱牙的專有名詞。能接觸它們的除了工程師,就是科學家。

也許這份印象需要再度刷新一次——人工智慧,真的需要不少「人工」。

就目前來說,人工智慧還處於人工增強階段,需要大量的人力來採集數據以便滿足機器學習的需要。

人工智慧火了,也帶火了一大批為人工智慧公司提供數據的公司,步入17年以來,有許多公司紛紛投向人工智慧數據採集領域,成為「數據加工」公司。就其商業模式來說,其中大部分公司都屬於低價獲取用戶數據然後再兜售給存在數據需求的人工智慧公司,由於行業門檻相對較低,於是一些沒有數據背景的公司也在涉足這個行業,這些公司大部分沒有獨立產生數據的能力,大部分數據是通過購買的形式獲得,同時由於對人工智慧機器學習的理解存在偏差,容易造成供需不匹配,導致一些數據的質量層次不齊,有的甚至無法滿足機器學習的需要。

就當前來說,誰能提供一手精準數據、低成本的數據、誰能保證數據的質量以及數據安全,誰就有機會在這條賽道上勝出。

「通常來說,數據標註得越準確、數量越多,模型的效果就越好。自然,產品的效果就會更好。」

為了提高數據採集的數量和保證數據採集的質量,牛牛數據在入場方式上和其他的數據公司不同,其他的數據公司主要選擇在線上發布和完成任務,這樣溝通成本太高,數據質量也不能保障,牛牛數據選擇在線下完成,用戶領取任務後需要參加統一的培訓,培訓合格之後方可參加數據標註任務,這樣在一定程度上保證了數據的數量和質量,同時為了提高標註的準確性,一般會把一個任務分拆給多個用戶去執行,多個用戶在並行一個任務時,數據標註的質量就能得到保證,這在其他平台是無法實現的,因為他們沒有這麼多的線下沉澱用戶。

請點擊此處輸入圖片描述

某種程度上,高質量的標註數據決定了一家人工智慧公司競爭力,人工智慧想要得到快速發展,就需要湧現出一大批像牛牛數據一樣的高質量數據標註或者叫作高質量數據服務公司。

儘管互聯網的確催生了浩如煙海的內容,但標註這件需要耐心和專註的「小事」,暫且還要靠人的幫忙。

對人工智慧公司來說,通過數據交易平台購買已標註好的數據包也是一種選擇。但問題似乎又繞回為什麼人工智慧公司要自己標註數據:不同的應用方向需要的數據內容不同,甚至標註方式也不同。

牛牛數據瞄準的就是這片市場——人工智慧公司需要的數據既要根據需求定製,又要保證標註質量,同時數量還十分龐大。大部分人工智慧公司自身和眾包平台都無法同時滿足這三種要求,因而誕生了專業的數據標註公司。

牛牛數據在東北設有辦公場所,全部是負責標註數據的員工。為滿足不同訂單需求,員工們被劃分成不同小組:

有的小組負責勾畫圖片中人體的關節點,將複雜的瑜伽姿勢抽象成點和線,可以用來訓練識別人體體態的模型;

有的小組要為路況圖片中的車輛、摩托車、自行車和行人打上邊框,並標註行進方向和是否有遮擋,這類圖片多用來訓練智能安防攝像頭的識別能力;

有的小組需要分毫不差的描繪建築物的邊緣,將靜止畫面中鱗次櫛比的大樓一一分割,標註成不同的色塊,這類數據多用在自動駕駛中車輛對環境的認知;

有的正將雷達掃描出的障礙物 3D 線條一一還原成實物,長方體是建築、綠色的是樹木,這些內容會被用來訓練雷達數據和真實世界的關聯性。

請點擊此處輸入圖片描述

標註作業有時並不簡單,比如這種關聯性標註

除圖片外,這裡還有負責視頻標註的員工。她們需要從每段視頻中抽出 10 幀,標註相近兩幀中物體的方向和坐標的變化。這些數據也許會被用來訓練機器對物體連貫性的感知,也許用來訓練機器預判物體的位置變化。

與大部分製造業類似,這裡的各個小組都有自己的獨立負責人,員工「生產」的內容會經過質檢人員的核驗,全部合格後才會最終交付項目方。嚴格的流程和管理制度,保證了穩定的標註效率和質量。

「很多人認為大數據就是呼叫中心,我們發展的大數據和其他人不一樣,整個數據標註行業只有我們做數據精加工。」對於公司目前在做的業務,牛牛數據有把握在這條已經略顯擁擠的賽道上殺出一條「血路」。

的確,這些結構化後數據,將成為這場人工智慧大潮中的公司們的立足之本。不僅幫助它們提升模型的準確度、提升產品的可靠性,甚至影響它們的發展軌跡和融資進程。


推薦閱讀:

TAG:人工智慧 | 人工智慧公司 |