駕馭AI:好的數據集是成功的一半

近期針對物體識別,訓練自有模型,有較大進展。因馬上春節了,事情繁雜,未系統梳理。先把思路簡要記錄如下。


主要是選取三張圖片,在研究數據、模型及訓練時,針對數據集做了標記,大家可以觀察下,有什麼規律?

VOCdevkitVOC2012數據集

VOCdevkitVOC2012數據集

VOCdevkitVOC2012數據集

註:此數據集含17125張圖片,在梳理時,通過對照VOC2012JPEGImagesVOC2012Annotations進行比對。圍繞 [ymin, xmin, ymax, xmax]以及 (x / width, y / height)等bounding boxes,核對圖像及xml中的label map。實際比對了上百張圖像數據,從中選取出代表性的三張。

三張圖片各有不同,均為生活典型場景。但對於數據集中的標註各有不同。因此,設計的model在識別時,效果就大為不同了。所以,數據集非常重要,必須根據工作目標做好標註,打好標籤,由此才能配合model,大量訓練,並最終提高識別準確率。

附,增加VOC2012SegmentationClass對比的情況:


最後,留下一個問題,如何識別出第二張圖中的自行車腳踏板?

大家可以類推場景。


主要參考link:

  1. AI:深度學習及場景應用(物體識別)
  2. The raw 2012 PASCAL VOC data set
  3. Use your own dataset in Tensorflow Object Detection API

其餘還有如下,不再一一列舉。

推薦閱讀:

對話孫慶凱:雲從科技如何憑藉三板斧敲開1500億安防市場 ?
最具價值的50個機器學習應用[2017年]
AI大事件丨Paige.ai斥資將機器學習帶入癌症病理學
33歲 AI 新生代「教父」已崛起,或將成就人類歷史上邁向具有類人意識機器的一大步 | 獨家
《機器學習》筆記-貝葉斯分類器(7)

TAG:人工智慧 | 深度學習DeepLearning | 圖像 |