復盤 AI Challenger 場景分類

復盤 AI Challenger 場景分類

來自專欄 機器學習提高班

1.數據清洗。

利用混淆矩陣,找出明顯不能區分的幾個類別。再利用微調的網路,對top1概率較小的的數據進行人工數據清洗。這個步驟中篩選掉了1000張左右的作物標記的圖片,占訓練集的2%,可以帶來top3精度的0.4%左右的提升。這個步驟與Active Learning裡面的思想是一致的。

2.數據增量。

使用places365中標記好的數據,隨機選取一部分,對應併入到AI Challenger(AIC)場景分類的訓練數據中。

3.微調遷移。

模型微調 ImageNet-11k 與place365,逐層微調,batchsize逐漸降低。使用448*448大的圖片尺寸。ImageNet-11k (12.4 millions)是ImageNet-1k(1.2 million)十倍的數據量,精度影響比較大。

點評:利用已有模型對數據清洗在比賽中才有,在科研論文中往往看不到,這個步驟會花費大量的時間精力。AIC的數據集對比大型已知的數據集還是略顯不足,類別體系也重合度比較高,利用已知標記數據的作用凸顯無疑。高精度的微調模型會放大精度的差距,目前的模型對比谷歌JFT-300M數據集3億的數據量還有待提升。總結起來,數據量是王道,還沒有飽和。

推薦閱讀:

如何解決機器學習中數據不平衡問題

TAG:神經網路 | 人工智慧 | 大規模機器學習 |