深度卷積網路的識圖能力,強在哪,弱在哪?一個小實驗(多圖)
看過 ImageNet 的讀者,會知道其中的大部分照片都是普通人隨手拍的。那麼,如果僅用 ImageNet 訓練網路,在面對高質量攝影作品時的識圖能力如何?這裡用一個 ResNet-152 網路實驗。
藝術化的排列,能識別嗎?YES。網路知道這是鉛筆。
抽象的圖案,能識別嗎?YES。網路知道這是螺旋形。
網路知道這是三角的建築圖案效果:
這是什麼,能識別嗎?YES。網路知道這是多彩的陣列。
這可能是因為,各種色彩也在 ImageNet 的分類之中。例如下面的圖,網路稱為《黃色》。
那麼,我們看個難的,這張圖,幾乎沒有什麼典型特徵,應該命名為什麼?
。
。
。
。
。
。
。
。
。
。
網路稱之為 stucco,專業,意思是 粉飾灰泥 的牆面。很准。
這麼准?再來一個,你看得出是什麼嗎?
。
。
。
。
。
。
。
。
。
。
這次網路不行了,它看來看去都覺得這是樂器。這段木頭還真的有點像樂器。
我們來點物體吧。大特寫,網路能看出來嗎?YES。它知道這是皺紋,而且是大象的。非常專業的詞:pachyderm,厚皮動物。
只露一點點的馴鹿,網路能找到嗎?YES。
網路精細識別動物的能力很強。例如它知道,這是查理士王小獵犬。
網路知道,這是 gotwit,塍鷸:
網路知道,這是象牙鷗:
好吧,那麼,下面這是什麼?請讀者不要急著往下翻,先自己想一個答案。
。
。
。
。
。
。
。
。
。
。
。
。
。
網路明確地告訴你,這是西高地白梗!說實話我甚至看不出來這是狗還是貓!
真的這麼厲害嗎?我們來個奇怪的角度:
。
。
。
。
。
。
。
。
。
。
這次網路不行了,它說這是雕像。
那麼,特殊的光照效果呢?
。
。
。
。
。
。
。
。
。
。
網路沒有受到干擾,知道這是貓。
下面加入人。網路能看出,這裡的概念是:姐妹/雙胞胎。
網路認為這位模特有點瘋:
網路認為這是美女:
網路精準識別和服:
網路知道這張的主體是裙子:
網路知道這是背光效果中的舞者:
也知道這是芭蕾!
網路判斷這位是奈及利亞人!
網路說這是藏民:
網路可以將下圖命名為《眼罩》!
下面這張照片,該稱為什麼?嬰兒?
。
。
。
。
。
。
。
。
。
。
網路告訴你,這應該稱為《父親》。估計是因為這樣拋小孩的一般是父親。
不過,網路堅信下面這位是男的:
網路認為這張照片描繪的是...... 南瓜田?!顏色有點像:
網路認為這是穿成衣展示的模特,不無道理:
網路看得出這張的主題是鏡子/面紗:
看一些物體。網路知道這是破船,不是水桶:
網路知道這是挖掘機:
網路說這是宇宙飛船發射,hmm......:
網路說這是火山和氣泡:
令人驚訝的是,網路沒有識別出這張金門大橋,儘管訓練圖片中肯定有許多張:
正常的橋是沒問題的,布達佩斯:
網路知道這是太空:
So,你覺得深度卷積網路的識圖能力如何?
- DCNN 對於決定性細節的捕捉能力很強。例如鹿角,芭蕾舞鞋,眼罩。
- DCNN 對於細緻類別的分類能力很強,例如各種動物。
- DCNN 對於不常見角度,不常見模式的圖片,有可能陷入「思維慣性"的誤區。這也許會在採用更多的訓練數據後得以解決,因為人類的創意模式在較大程度上仍然是比較固定的。
- DCNN 有時會有令人詫異的漏洞,例如這裡的金門大橋的例子。
推薦閱讀:
TAG:深度學習DeepLearning | 卷積神經網路CNN | 人工智慧 |