[感想] 一個極好的收集label的工程
05-25
[感想] 一個極好的收集label的工程
今天看到了這條新聞(請忽視驅家的標題黨惡習),感覺是很久以來讀到的國內人工智慧數據採集最好的解決方案了:
網易見外直接翻譯美劇:再也不怕「生肉」
很早之前也有一個非常天才的構想就是CAPTCHA - Wikipedia 。一個把資本,需求和人力資源結合/分散的方案。(當然它也順便解決了OCR attack的問題)。
首先我不是NLP的專家甚至沒什麼NLP的經驗……不過現在任何和人工智慧相關的工程,第一個問題就是足夠的labeled data。上文中提到,由網易提供資本支持,網易和人人影視共同提供技術支持,同時crowdsource標籤採集,這個方案很好的解決了各方面的利益問題。
- 網易:基本是outsource了翻譯和校準數據,通過提供一個平台來擴大自己在AI的影響力,同時給潛在的下一步(提供類似於油管的完整機翻解決方案)創造了條件。
- 人人影視:一個極好的完全擺脫盜版束縛的機會,通過大資本家提供版權u以及法律支持,繼續發展自身的完整翻譯網路和群眾支持。
- 廣大字幕愛好者:一個極好的合法貢獻自己才能和時間的機會以及更方便的翻譯流程。
這三個方面集中體現了數據採集的問題。我在工作中也有類似的困境:
- label不幹凈:missing label, mislabel導致機器學習結果並不好。我做過一個分析,在我的幾個projects上,額外的10%錯誤的標籤會造成額外20%的模型precision影響。
- 與label提供者的交流問題:label提供者並沒有很大的激勵來給我們提供更高質量的數據。
- 資本投入:由於半監督式標籤很多情況下非常受domain限制,一個還不錯的解決方案可能只限用於很狹窄的一個方向,為這個目的提供一個完整的小組並不具有高產出投入比。
這些問題在更複雜的人工智慧問題上(包括NLP,圖像識別)尤其嚴重。大多數人工智慧數據都需要非常原始的人工數據採集。一個耳熟能詳的例子就是李飛飛和ImageNet (The data that transformed AI research—and possibly the world)。相比之下,可能網易/人人的方案並不能達到同樣的label精度(取決於這些翻譯是否有進一步的驗證),但是依賴於更大的人力資源,恐怕(也許是我的一廂情願)他們的資料庫能達到一個更高的程度。
推薦閱讀:
※Teradata SQL基礎:從已有表創建新表
※如何擴充你的數據科學工具包?這裡有24款免費的數據科學工具!
※teradata SQL基礎:字元串處理
※隨機森林:RF