駕馭AI:好的數據集是成功的一半
近期針對物體識別,訓練自有模型,有較大進展。因馬上春節了,事情繁雜,未系統梳理。先把思路簡要記錄如下。
主要是選取三張圖片,在研究數據、模型及訓練時,針對數據集做了標記,大家可以觀察下,有什麼規律?
註:此數據集含17125張圖片,在梳理時,通過對照VOC2012JPEGImages及VOC2012Annotations進行比對。圍繞 [ymin, xmin, ymax, xmax]以及 (x / width, y / height)等bounding boxes,核對圖像及xml中的label map。實際比對了上百張圖像數據,從中選取出代表性的三張。
三張圖片各有不同,均為生活典型場景。但對於數據集中的標註各有不同。因此,設計的model在識別時,效果就大為不同了。所以,數據集非常重要,必須根據工作目標做好標註,打好標籤,由此才能配合model,大量訓練,並最終提高識別準確率。
附,增加VOC2012SegmentationClass對比的情況:
最後,留下一個問題,如何識別出第二張圖中的自行車腳踏板?
大家可以類推場景。
主要參考link:
- AI:深度學習及場景應用(物體識別)
- The raw 2012 PASCAL VOC data set
- Use your own dataset in Tensorflow Object Detection API
其餘還有如下,不再一一列舉。
推薦閱讀:
※對話孫慶凱:雲從科技如何憑藉三板斧敲開1500億安防市場 ?
※最具價值的50個機器學習應用[2017年]
※AI大事件丨Paige.ai斥資將機器學習帶入癌症病理學
※33歲 AI 新生代「教父」已崛起,或將成就人類歷史上邁向具有類人意識機器的一大步 | 獨家
※《機器學習》筆記-貝葉斯分類器(7)
TAG:人工智慧 | 深度學習DeepLearning | 圖像 |