精準數據讓人工智慧更「聰明」
2017年網路熱詞——人工智慧,熱度不減。2018世界人工智慧大會近日在上海舉行,來自近40個國家和地區的專家學者、企業家等圍繞人工智慧技術前沿、產業趨勢和熱點問題開展對話交流,200多家人工智慧領域領軍企業參加論壇和展示活動。
什麼是人工智慧?從1997年IBM深藍計算機戰勝國際象棋大師卡斯帕羅夫,到2016年AlphaGo橫掃人類職業圍棋選手;從機器學習、演算法研究到智能音箱、智慧物流等產品化、產業化,以人類智能相似的方式做出反應的智能機器越來越多的出現在我們面前。
經歷一甲子,人工智慧已經從爭論不定的「概念」,逐漸具象、延伸為愈加豐富的學科,並培育起一批科技產業,被全世界更廣大範圍內的人群接觸、認知。
人工智慧營造的產業及市場規模有多大,目前沒有確切的說法。但保守預估,2018年中國人工智慧市場將達到381億元,全球人工智慧市場規模將達2697億元;2020年這兩個指標將分別達到700億元、6800億元。
智能家居、路線導航、物流配送……人類生活中的各種場景及行為正在被AI拆解為一個個需求模塊,在重構了生產資料與勞動力之間的關係後,重新嵌入社會、經濟的各個環節。
一些業內專家認為,當前AI的發展現狀僅相當於「互聯網在上世紀90年代初期的階段」,主要方法論仍是基於大數據、大計算模式,需要海量數據去「餵養」。
也就是說,人工智慧並不會像人類那樣推斷出結論,它要進行不斷地試驗和錯誤學習,這得需要大量的數據來教授和培訓。人工智慧應用的數據越多,獲得的結果就越準確。毫無疑問,沒有大數據就沒有人工智慧。
現在,越來越多的AI企業對數據的要求越來越嚴格,精準、海量的數據是AI企業的「必需品」。而成立於2014年的「龍貓數據」,正是致力於為整個AI領域提供最專業的數據服務。
「有的企業需要對人臉的識別更加精準,在海量數據中,辨別出哪幾張照片顯示的是同一個人,即使這幾張照片顯示的是這個人的不同角度。如果我們從網上找來一些圖片,或者是一些原始的數據,根本達不到精準的訓練目的,也不會滿足AI公司提出的各種需求。而數據服務行業,就是有針對性的為AI研發企業提供他們想要的數據。」龍貓數據運營總監張翠玲說道。
APP解決數據收集難題
如何搜集到一手、海量的數據,龍貓數據的獨到之處在於線上眾包平台:移動端APP以及Web端標註平台。其中,「龍貓數據」APP於去年5月上線運行,用戶量已突破600萬人,日活在10萬人以上,用戶可以利用閑暇時間,根據要求進行文字、圖像、語音、視頻的採集並獲得一定獎勵和報酬。
龍貓數據Java發開工程師郝軍生說:「比如這裡有個採集沙灘照片的任務,先查看一下任務下面的說明,再根據說明拍攝、選擇、上傳。上傳後提交審核,審核通過就可以得到一定的現金回報。我們對數據採集用戶的限制和要求都比較高,比如聲音採集中嬰兒的哭聲,老人說話的聲音,或者某地的方言,基本上都要在10萬數量級別的用戶中,去尋找符合要求的人。」
並不是每條素材都是符合要求的,龍貓數據有自己的審核團隊,通過審核後,至少每5名用戶才可以產生一張有效圖片,每1000人才可以產生一條合格的語音。
「用戶在採集數據時,我們會給予一定的指導。在用戶完成採集後,我們會有兩道審核機制來把控數據的質量。第一,是全部審核,所有的數據都按規則審核一遍;第二,是一定比例的抽審。這些都由優秀的、能夠把控產出質量的審核人員來做。我們還有內部審核機制,實時自審自查。通過多維度、多層次的審核,嚴格保證數據出廠的質量。」龍貓數據項目運營琚振超告訴我們。
為了激發大家參與數據採集的積極性,迅速找到和自己匹配度高的任務,「龍貓數據」APP還推出「工會」服務功能,對優質用戶進行額外獎勵。
「用戶之間可以創建工會,經過多方評定,選擇一個活躍用戶做工會長,定期根據工會用戶的個人情況選擇合適任務,推薦給他們。工會的成員做任務會獲得額外增加的報酬,其比例也會隨著公會等級的增加而提高。」郝軍生說道。
Web端標註平台讓數據精準可用
數據採集只是第一步,還遠遠達不到人工智慧訓練的目的。龍貓數據推出的Web端標註平台,通過對圖像、文本、語音、視頻等數據進行採集、評估、歸類,最終完成標註。標註過程中可實現對內容進行提取、分類、轉寫、語義分割、清洗、脫敏、校驗等相關任務。
龍貓數據項目運營琚振超說:「對於人工智慧數據訓練而言,數據採集和標註是相互貫連的兩塊內容。標註也分為視頻、音頻、文本、圖像幾大類,我們還可以做像3D點雲這類3D內容的標註,這些都需要有經驗的人按照演算法特定的需求做出精準標註,然後機器才能進行學習訓練。」
以人臉照片素材為例,圖上有密密麻麻的點,而每一個點都有其特徵含義,如內眼角、外眼角等。工作人員需要把這些特徵點在圖中標記出來,才算是一份可以用的素材。
通常人臉識別需要的訓練素材,少則 160 個點,多則數百個點,通過人工的手段想要正確且完整地標記一整張圖是非常困難的。龍貓數據在眾包平台的數據採集階段採用了一種自研的人工智慧預處理技術,即當用戶上傳原始素材至龍貓眾包平台後,人工智慧會直接在後端開始預處理,提前標記好任務所需要的特徵點。當素材進入人工標記階段時,操作人員只需要輕微地挪動一些不合理的點即可完成任務。
張翠玲告訴記者:「就人臉識別而言,因為演算法不一樣,有的人工智慧公司要求打點是270多個,少一點的則需要200個,所以我們需要向這些公司提供符合他們需求的數據。我們之前做過大概的預計,未來AI行業一年應該有2000億的規模,數據成本應該佔到研發成本的5%到10%嗎,市場潛力非常巨大。」
龍貓數據有著自己的打算,要把移動端APP、Web端標註平台做更好的優化,特別是根據自身業務流程調整,將Web端標註平台進行更高效的設計,以更迅捷地處理各種各樣的數據,滿足客戶日益增長的數據需求。
「我們希望能夠建立起數據共享生態系統,數據共享平台是我們已經走出的第一步。我們將歸納整理好的各種各樣的數據集,分享給有需求的高校或者其他行業企業來用,以此助推人工智慧領域的快速發展」琚振超說道。
原文鏈接:
精準數據讓人工智慧更「聰明」-訪談-中國科技網首頁推薦閱讀:
※女仕界訪談:Life Starts at Forty
※著名音樂人羅大佑作客新浪聊天室訪談實錄
※轉載鋒哥的訪談,優秀的分析師
※米歇爾 · 福柯 | 譜系闡釋的體系(訪談)
※港圈大佬堪稱訪談界黑洞!梁家輝懟魯豫,古天樂反問難道要我殺人