標籤:

人工智慧趨勢下,基礎數據供應商如何掘金?

撰稿:劉雪兒 編輯:劉惜墨

2015年底,龍貓數據CEO昝智主動停薪半年。

一年前,昝智對給公交系統做移動支付信心滿滿,並與他在豌豆莢負責技術的同事姚毅一拍即合,二人決定出來創業。

當時昝智已經與北上廣深的公交集團達成合作。哪知商場風向瞬息萬變,支付寶和微信爭相在線下燒錢推廣,且已蔓延至公交系統。微信、支付寶兩大移動支付巨頭盤踞在側,一直燒錢運營的狀態下,致使昝智的業務急劇收縮,員工也從高峰期近三十人縮到十幾個人。

▲龍貓數據CEO 昝智

必須尋找下一個業務刺激點。

趁著微信紅利尚未褪盡,為了讓團隊先活下去,昝智決定做微信公號運營,用發紅包等方式聚集了一批用戶,用戶通過發朋友圈的方式給商家做推廣,昝智稱為 「眾包」模式。

今天的龍貓數據40個全職員工,合作客戶有50多家,靠眾包平台上的400萬用戶,已經發展成為人工智慧領域提供大數據採集標註處理、線下巡檢、市場推廣的服務商,平台每天平均完成任務量是20萬件。

然而這個方向被昝智稱為「機緣巧合」。

2016年,昝智看到AI爆發的風潮,躍躍欲試,但非科班出生的他對人工智慧拿捏不準,一時進退兩難。

同年6月,百度找上門來,需要非常多的原始數據來訓練演算法,「小度」才會變得聰明。 如果單獨找上千人收集數據,不僅一時間湊不齊那麼多人,而且成本會很高。在沒有第三方眾包平台之前,做語音識別的科大訊飛就曾自己招募了上千名標註員。

「人工智慧,人工越多越智能。」昝智對新經濟100人說。

依靠龍貓數據的眾包平台優勢,百度很快完成了數據採集。

2016年AI元年,轉型還有機會。昝智總結人工智慧最重要的三點:除人才外,還有兩處基礎服務很重要,一是數據,二是運算能力。龍貓數據將火力集中在數據上。「不要想著怎麼去改變這個世界,而應該更多想想世界需要什麼。」

龍貓數據投資人、九合創投創始合伙人王嘯認為,「類似當年的『移動戰略』,AI作為底層邏輯,將帶領互聯網將進入『智能互聯網』階段。智能互聯網包含數據層、基礎設施層、技術設施層和消費層四個基礎面,其中數據層是整個鏈條的基礎。」

隨著人工智慧的深入發展,文本、圖片、語音、視頻等形式的數據需求越來越多。相關創業公司也應需而起。新經濟100人發現,行業里發展較早的海天瑞聲和數據堂,前者主要做語音數據,後者有部分非定製化數據出售業務,其他創業公司還比較早期。

「我們相信能夠高效率收集原始數據的公司將會創造巨大價值。」王嘯說。

昝智認為,龍貓數據的優勢在於能提供定製化生產需求:人工智慧公司在前期搞模型時,可以用公開數據訓練,但隨著發展的深入,需要有定製化的數據來提高準確率。

比如近年來智能音箱的流行,首先要有喚醒詞。比如百度的是「小度小度」,小米的是「小愛同學」,啟動後還有指令詞,比如「開空調」,「播放一首TFBOYS的《青春修鍊手冊》」。機器要輸入不同口音、不同年齡段、各種喜怒哀樂情緒下的語音,才能變聰明。

文本類應用也很廣泛。比如在各大電商的售後系統中,客服機器人的功勞不容小覷,通過一些關鍵詞能做好顧客基本的售後服務,緩解人工客服的壓力。比如在網站文章和留言的審核上,機器通過學習後能快速大量阻擋涉黃與不良信息等。

▲車輛標註

有些採集來的數據仍不能直接使用,需要人工標註才能「餵食」機器,這便要引出龍貓數據的另一大業務——數據標註,尤其在圖片處理上應用較廣。

比如在人臉識別上,不光要精確標註五官,就連眼睛就有好幾處需要標註,內眼角、外眼角、眼角間的弧線和等分點等。比如無人車應用上,機動車、非機動車、紅綠燈、行人、行駛路線等都要一一標註,給機器耐心引導。目前這塊多做2D標註,未來要做的3D標註會更加複雜。

對風險比較高的金融和個人隱私數據,龍貓會先調查使用用途,用途不明的或者太隱私的數據項目會直接拒絕。對所持數據,甲乙雙方都會簽保密合同,數據只能使用一次,雙方不能轉售外泄。

據了解,很多公司通過正規渠道和價格,獲取數據介面,但調用數據時,會在本地設備形成一個緩存庫,當數據積累到一定程度後,便二次銷售緩存庫里的數據,這些緩存庫也一度成為黑客的獵物。

數據提供商就這樣野蠻生長著。

為了站穩腳跟,龍貓數據推出「先使用後付款」政策,如果效果不好可以不付款,早期就出現這樣一個例子。

那是個文字判斷項目,帶有很強的主觀性,連規則就有十幾頁,需要幾萬人同時做判斷,客戶希望準確率達到95%以上。早期運營團隊缺乏經驗,快到截止日了才搞清規則,最後做的效果也不好,項目一分錢沒收回來。

龍貓數據銷售總監謝林波很生氣,在客戶和運營團隊兩頭溝通,他說昝智很冷靜。「他要搞清楚問題在哪,主觀和客觀原因是什麼,沒有過多地考慮公司損失。」謝林波回憶昝智的做法。

此後再碰到難弄的文本判斷類項目,龍貓會事先篩選一批標註員,比如學歷高的,以前做任務很認真的,做過類似任務的,把任務定向發給這些人。

眾包的用戶是數據採集的來源,也是數據標註的執行者,用戶運營關係到整個數據服務的規模化。

▲龍貓眾包App部分任務

打開龍貓眾包App,可以在「數據採集」任務欄下看到多個任務,有男性20個手勢賺6元、老人的現在和過去賺3元、拍汽車內吸煙照片賺6.3元等,點進去會有每項任務的詳情要求,對照片背景和人物姿態都有規定。新經濟100人試驗了幾項任務,一兩天左右就有審核結果出來。

用戶中學生群體佔大多數,還有一些寶媽和低收入年輕群體。龍貓數據發現很多人不看任務要求,還埋怨審核不通過。比如照片的臉龐往左偏與右偏都有要求,很多人經常弄混淆,以自己的方位來推斷圖中人的方位。後來,龍貓數據乾脆錄了一段視頻,直觀地講解要求,有時也會開直播室來培訓,實在不懂就直接電話客服。

為了減輕團隊壓力、活躍用戶,昝智決定建立工會,給用戶優惠策略,讓用戶管理用戶,大家可以在一個群里交流,老人帶新人。目前總體考核通過率50%-60%,熟練工通過率更高。

除了培訓外,龍貓數據還會讓用戶參與審核。這在早期是不可想像的,以前都是客戶給結果後,龍貓數據才給用戶審核,發錢的發錢,拒絕的拒絕,但時間太長,會打擊用戶積極性。昝智決定打破規則,先自己審核,只要用戶做好任務,就按規則發錢,這意味著龍貓要承擔所有的風險,萬一客戶覺得效果不好,龍貓就要擔著損失。

龍貓數據CTO姚毅說,目前龍貓有三種審核方式,一是自己審核,二是交給用戶審核,三是自動審核,適用於客觀判斷題項目。後續還有交叉驗證等進一步控制質量。

目前,數據採集主要在龍貓眾包App上,數據標註主要在PC端。

謝林波曾做過人臉的標註任務,「要標200多個點,眼睛疼得受不了,要特別心細」,後來,他把一張臉拆成幾部分,有人專門標眼睛,有人標嘴巴,大家就輕鬆多了,目前做1小時標註賺15元左右。

龍貓數據是一家技術加銷售導向的公司,一端連著智能公司客戶,一端系著普通用戶,龍貓數據需要平衡好這個「蹺蹺板」。

有客戶會和謝林波叫價,反正你們那麼多人,任務那麼容易,不能便宜點嗎?謝林波讓他們換位思考,「如果給你幾塊錢,你願意拍幾張照片嗎,他(客戶)就不說話了,那為什麼別人願意接受低廉的價格?大家要互相理解。再說了,價格低了,短時間收集不了那些數據,對你一點意義都沒有。」

「我們既要對客戶好,也要對用戶好,這樣我們才能發展,一方都不能得罪。」謝林波對新經濟100人說。

除了客戶與用戶,龍貓數據也需要時刻關注人工智慧行業的發展。隨著增強學習、遷移學習等演算法的發展,只需要少量數據就可以達成一定效果,數據提供商的價值是否打折?

姚毅覺得即便如此,市場仍有數據量的需求,採集和標註還是需要人來做,而且還存在不同形態、不同維度的數據,比如人臉識別,做完普通亞洲人的,還有其他人種、不同側面、多個光源、不同年紀等。「當一個新的應用場景誕生時,就會衍生出一批新的數據需求。」

▲路況標註

在昝智看來,未來5年內人工智慧還得依賴監督學習,所謂監督學習就是人標註好了數據讓機器看,監督它去學習。

除了做好數據服務外,昝智想著可以在人工智慧領域做延展。比如看到不少AI公司的研發領域和數據需求很相似,日後可能參與類似數據共享平台的建設。

在更長遠的定位上,龍貓數據是一家給人工智慧公司提供基礎服務的平台,「在這個過程中我可以洞察到很多的機會,也可能就某些機會去做進一步的事情。」昝智對新經濟100人說。

當務之急,昝智想儘快把國內頂尖的互聯網科技公司和AI公司都簽下來,已經簽約50多個,包括百度、騰訊、小米、今日頭條、蔚來汽車、出門問問等。目前包括互聯網巨頭+新興人工智慧創業公司總共在300家左右。

「真的要有戰鬥精神,如果認定了這個市場,你要有非常強大的內心,你得把整個蛋糕吃完。」30歲的昝智說。

「我的作戰能力是有的,但除了自己搏殺,怎麼帶大家都進入搏殺的狀態,是需要思考的。」


推薦閱讀:

TAG:人工智能 |