Bing 新系統瞄準AI的「食物」
4 人贊了文章
微軟Bing團隊的研究人員開發出了一種新穎的方法來為訓練機器學習模型生成高質量的數據。
在鹽湖城計算機視覺與模式識別大會(CVPR)之前發表的一篇博文和論文中,他們提到了一個系統,可以區分準確標記的數據和錯誤標記的數據,並具有驚人的準確性。
「獲得足夠高質量的培訓數據通常是構建基於人工智慧服務中最具挑戰性的部分,」研究人員寫道:「通常,被人類標記的數據質量高(錯誤相對較少),但在金錢和時間上的代價很高。另一方面,機器自動的數據生成成本便宜,但是會導致更多的標籤錯誤(「標籤噪音」)。
正如Bing團隊解釋的那樣,訓練演算法需要收集數十萬甚至數百萬個數據樣本,並將這些樣本分類——如果由數據科學家人工執行,將是一項艱巨的任務。一個經常使用的快捷方式是把搜索引擎的數據「抓取」到一個列表中,對列表中的每一個條目進行搜索,然後收集結果。(例如,在構建計算機視覺演算法的語料庫中區分不同種類的食物時,可能會對「壽司」進行圖像搜索。)
但並不是每個結果都與搜索類別相關,訓練數據中的錯誤可能導致機器學習模型中的偏差和不準確。減輕錯誤標記的一種方法是訓練另一種演算法來發現錯誤匹配並糾正它們,但這是一個過程密集型的解決方案;模型必須針對每個類別進行培訓。
Bing團隊採用了一種人工智慧模型,可以實時校正錯誤。在培訓期間,系統的一部分(類嵌入向量)學會自動選擇最能代表每個類別的圖像。同時,模型的另一部分(查詢嵌入向量)學習將示例圖像嵌入到同一個向量中。隨著訓練的深入,這樣的系統設計方法能更明顯地區分不同類別的圖像。
系統最終識別出用於為每個類別查找具有高度代表性的圖像的模式。該團隊說,它甚至可以對沒有經過人類驗證的標籤進行可靠的工作。
「這種方法已經被證明在以圖像相關的任務中生成乾淨的訓練數據是非常有效的,」該團隊寫道:「我們相信它將同樣適用於視頻、文本或演講。」
WTT資訊-最新科技資訊,實時網安信息歡迎關注我們:
@W-Pwn ?
推薦閱讀: