深度卷積網路的識圖能力,強在哪,弱在哪?一個小實驗(多圖)

看過 ImageNet 的讀者,會知道其中的大部分照片都是普通人隨手拍的。那麼,如果僅用 ImageNet 訓練網路,在面對高質量攝影作品時的識圖能力如何?這裡用一個 ResNet-152 網路實驗。

藝術化的排列,能識別嗎?YES。網路知道這是鉛筆。

抽象的圖案,能識別嗎?YES。網路知道這是螺旋形。

網路知道這是三角的建築圖案效果:

這是什麼,能識別嗎?YES。網路知道這是多彩的陣列。

這可能是因為,各種色彩也在 ImageNet 的分類之中。例如下面的圖,網路稱為《黃色》。

那麼,我們看個難的,這張圖,幾乎沒有什麼典型特徵,應該命名為什麼?

網路稱之為 stucco,專業,意思是 粉飾灰泥 的牆面。很准。

這麼准?再來一個,你看得出是什麼嗎?

這次網路不行了,它看來看去都覺得這是樂器。這段木頭還真的有點像樂器。

我們來點物體吧。大特寫,網路能看出來嗎?YES。它知道這是皺紋,而且是大象的。非常專業的詞:pachyderm,厚皮動物。

只露一點點的馴鹿,網路能找到嗎?YES。

網路精細識別動物的能力很強。例如它知道,這是查理士王小獵犬。

網路知道,這是 gotwit,塍鷸:

網路知道,這是象牙鷗:

好吧,那麼,下面這是什麼?請讀者不要急著往下翻,先自己想一個答案。

網路明確地告訴你,這是西高地白梗!說實話我甚至看不出來這是狗還是貓!

真的這麼厲害嗎?我們來個奇怪的角度:

這次網路不行了,它說這是雕像。

那麼,特殊的光照效果呢?

網路沒有受到干擾,知道這是貓。

下面加入人。網路能看出,這裡的概念是:姐妹/雙胞胎。

網路認為這位模特有點瘋:

網路認為這是美女:

網路精準識別和服:

網路知道這張的主體是裙子:

網路知道這是背光效果中的舞者:

也知道這是芭蕾!

網路判斷這位是奈及利亞人!

網路說這是藏民:

網路可以將下圖命名為《眼罩》!

下面這張照片,該稱為什麼?嬰兒?

網路告訴你,這應該稱為《父親》。估計是因為這樣拋小孩的一般是父親。

不過,網路堅信下面這位是男的:

網路認為這張照片描繪的是...... 南瓜田?!顏色有點像:

網路認為這是穿成衣展示的模特,不無道理:

網路看得出這張的主題是鏡子/面紗:

看一些物體。網路知道這是破船,不是水桶:

網路知道這是挖掘機:

網路說這是宇宙飛船發射,hmm......:

網路說這是火山和氣泡:

令人驚訝的是,網路沒有識別出這張金門大橋,儘管訓練圖片中肯定有許多張:

正常的橋是沒問題的,布達佩斯:

網路知道這是太空:

So,你覺得深度卷積網路的識圖能力如何?

  1. DCNN 對於決定性細節的捕捉能力很強。例如鹿角,芭蕾舞鞋,眼罩。
  2. DCNN 對於細緻類別的分類能力很強,例如各種動物。
  3. DCNN 對於不常見角度,不常見模式的圖片,有可能陷入「思維慣性"的誤區。這也許會在採用更多的訓練數據後得以解決,因為人類的創意模式在較大程度上仍然是比較固定的。
  4. DCNN 有時會有令人詫異的漏洞,例如這裡的金門大橋的例子。

推薦閱讀:

TAG:深度學習DeepLearning | 卷積神經網路CNN | 人工智慧 |