AI產品經理需要了解的數據標註工作入門

01-28

前言：本文作者@Jasmine ，是我們「AI產品經理大本營」的早期成員之一，現主動申請成為「AI研習小分隊」的分享嘉賓；下面是她分享的第二篇文章，以饗大家。

Hi，我是@Jasmine，一位AI產品經理。在正式內容之前，我想跟大家簡單分享一下我的經歷：我大學本科不是IT相關，甚至在我工作之前，我沒有做過任何與互聯網相關的實習工作。

而現在我能負責公司的重點項目，證明了進入AI行業並不是你們想像中的那麼困難。直至今天，我仍在這條道路上不斷學習，也希望有更多的朋友給予我指點。

現在我就來說說，如何在對AI行業一無所知的情況下，快速了解到它的流程運作，並找准機會轉行。

一、簡單了解AI應用範圍

（上圖，來自智能玩咖）

AI的應用領域非常非常廣，上圖只是大家相對熟悉的幾個，而且每一個領域用到的演算法都不一樣。有很多想轉型的產品，第一個考慮的點就是：不懂技術就做不了AI，我是不是學完演算法才能入行？

其實不是。

大家可能知道

1、不僅演算法重要，很多時候數據可能更重要；有保質保量的數據，才可能有好的訓練效果。

2、數據可分為兩種類型：「被標記過」的數據和「未被標記過」的數據。什麼是標記呢？意同「貼標籤」，當你看到一個西瓜，你知道它是屬於水果。那麼你就可以為它貼上一個水果的標籤。演算法同事用「有標籤的數據」去訓練模型，這裡就有了「監督學習」。

重點就是這裡：只要是跟「監督學習」沾邊的產品/技術，比如圖像識別、人臉識別、自然語言理解等等，他們都有一個必走的流程——

不斷地用標註後的數據去訓練模型，不斷調整模型參數，得到指標數值更高的模型。

二、數據處理流程拆解

1、數據標註

數據的質量直接會影響到模型的質量，因此數據標註在整個流程中絕對是非要重要的一點。

1）一般來說，數據標註部分可以有三個角色

A）標註員：標註員負責標記數據。

B）審核員：審核員負責審核被標記數據的質量。

C）管理員：管理人員、發放任務、統計工資。

只有在數據被審核員審核通過後，這批數據才能夠被演算法同事利用。

2）數據標記流程

A）任務分配：假設標註員每次標記的數據為一次任務，則每次任務可由管理員分批發放記錄，也可將整個流程做成「搶單式」的，由後台直接分發。

B）標記程序設計：需要考慮到如何提升效率，比如快捷鍵的設置、邊標記及邊存等等功能都有利於提高標記效率。

3）進度跟蹤：程序對標註員、審核員的工作分別進行跟蹤，可利用「規定截止日期」的方式淘汰怠惰的人。

4）質量跟蹤：通過計算標註人員的標註正確率和被審核通過率，對人員標註質量進行跟蹤，可利用「末位淘汰」制提高標註人員質量。

2、模型訓練

這部分基本交由演算法同事跟進，但產品可依據需求，向演算法同事提出需要注意的方面；

舉個栗子——

背景：一個識別車輛的產品對大眾車某系列的識別效果非常不理想，經過跟蹤發現，是因為該車系和另外一個品牌的車型十分相似。那麼，為了達到某個目標（比如，將精確率提高5%），可以採用的方式包括：

1）補充數據：針對大眾車系的數據做補充。值得注意的是，不僅是補充正例（「XXX」應該被識別為該大眾車系），還可以提供負例（「XXX」不應該被識別為該大眾車系），這樣可以提高差異度的識別。

2）優化數據：修改大批以往的錯誤標註。

產品將具體的需求給到演算法工程師，能避免無目的性、無針對性、無緊急程度的工作。

3、模型測試

測試同事（一般來說演算法同事也會直接負責模型測試）將未被訓練過的數據在新的模型下做測試。

如果沒有後台設計，測試結果只能由人工抽樣計算，抽樣計算繁瑣且效率較低。因此可以考慮由後台計算。

一般來說模型測試至少需要關注兩個指標：

精確率：識別為正確的樣本數/識別出來的樣本數
召回率：識別為正確的樣本數/所有樣本中正確的數

舉個栗子：全班一共30名男生、20名女生。需要機器識別出男生的數量。本次機器一共識別出20名目標對象，其中18名為男性，2名為女性。則

精確率=18/（18+2）=0.9
召回率=18/30=0.6

再補充一個圖來解釋：

（來自mousever）

而且，模型的效果，需要在這兩個指標之間達到一個平衡。

測試同事需要關注特定領域內每個類別的指標，比如針對識別人臉的表情，裡面有喜怒哀樂等分類，每一個分類對應的指標都是不一樣的。測試同事需要將測試的結果完善地反饋給演算法同事，演算法同事才能找准模型效果欠缺的原因。同時，測試同事將本次模型的指標結果反饋給產品，由產品評估是否滿足上線需求。

4、產品評估

「評估模型是否滿足上線需求」是產品必須關注的，一旦上線會影響到客戶的使用感。

因此，在模型上線之前，產品需反覆驗證模型效果。為了用數據對比本模型和上一個模型的優劣，需要每次都記錄好指標數據。

假設本次模型主要是為了優化領域內其中一類的指標，在關注目的的同時，產品還需同時注意檢測其他類別的效果，以免漏洞產生。

三、產品工作補充

產品經理的工作，不止是產品評估——除了流程式控制制，質量評估，還有針對分類問題，由產品經理制定邊界；這是非常重要的，直接影響模型是否滿足市場需求。

產品制定分類規則：例如，目的是希望模型能夠識別紅色，那產品需要詳細描述「紅色」包含的顏色，暗紅色算紅色嗎？紫紅色算紅色嗎？紫紅色算是紅色還是紫色？這些非常細節的規則都需要產品設定。

如果分類細，那麼針對某一類的數據就會少。如果分類大，那麼一些有歧義的數據就會被放進該分類，也會影響模型效果。分類問題和策略問題道理是一樣的，都需要產品對需求了解得非常深刻。

以上內容，都只是AI行業一個小領域內可梳理的工作內容。

總之，針對剛剛入行的朋友，如果沒有演算法基礎、沒有工程基礎，可考慮在流程、平台等職責角度做過渡；在工作內容中不斷總結學習，往自己最終的方向目標不斷前進！

注1：@Jasmine的第一篇分享文章在【知識圖譜】項目前期產品經理需要做哪些準備？

注2：飯糰「AI產品經理大本營」，是黃釗hanniman建立的、行業內第一個「AI產品經理成長交流社區」，通過每天乾貨分享、每月線下交流、每季職位內推等方式，幫助大家完成「AI產品經理成長的實操路徑」，詳情可見 http://fantuan.guokr.net/groups/219/ 。

---------------------

作者：黃釗hanniman，圖靈機器人-人才戰略官，前騰訊產品經理，5年AI實戰經驗，8年互聯網背景，微信公眾號/知乎/在行ID「hanniman」，飯糰「AI產品經理大本營」，分享人工智慧相關原創乾貨，200頁PPT《人工智慧產品經理的新起點》被業內廣泛好評，下載量1萬+。