【技術綜述】圖像美學質量評價調研報告

06-04

【技術綜述】圖像美學質量評價調研報告

來自專欄深度學習與攝影

本文作者：鮑曉傑

01概述

究竟什麼是圖像美學質量呢？牛津高階英語詞典將美學定義為：「concerned with beauty and art and the understanding of beautiful things, and made in an artistic way and beautiful to look at.」視覺美學質量是視覺感知美的一種度量。圖像的視覺美學質量衡量了在人類眼中一幅圖像的視覺吸引力。由於視覺美學是一個主觀的屬性，往往會涉及情感和個人品味，這使得自動評估圖像美學質量是一項非常主觀的任務。然而，人們往往會達成一種共識，即一些圖像在視覺上比其他圖像更有吸引力，這是新興研究領域——可計算美學的原理之一。計算美學探索如何用可計算技術來預測人類對視覺刺激產生的情緒反應，使計算機模仿人類的審美過程，從而用可計算方法來自動預測圖像的美學質量。

在現實生活中，圖像美學質量評價主要有以下幾點應用。

1、美學輔助圖像搜索

搜索引擎根據用戶的查詢檢索大量的相關結果，然而，排在檢索結果最前面的搜索結果通常不具有視覺吸引力。在這種情況下，用戶需要瀏覽更多結果以找到既與查詢相關又令人感到視覺滿意的結果。此時，圖像美學質量評價演算法可以作為後續處理步驟，根據美學質量重新排列檢索到的圖像。這樣使位於檢索結果頂部的檢索圖像都是高美學質量的圖像。未來，基於美學的排名還可以與其他標準相結合，以便在圖像搜索引擎中提供更好的用戶體驗。

2、自動照片增強

照片編輯工具通常用來根據用戶的意圖修改照片的某些特性。像Adobe Photoshop這樣的商業軟體就提供了這樣的工具，但這通常需要用戶對設計概念和攝影理論有很好的了解。對普通用戶來說，他們不清楚圖像的哪些元素需要編輯，以及如何編輯它們以使圖像更具吸引力。在這種情況下，自動增強圖像美學質量的自動照片編輯工具是非常有用的。開發這樣的工具是一個雙重問題：如何編輯照片以及如何評價進行不同編輯後圖像的美學效果。後者的答案是採用美學質量評價技術。一個常見的實現方法是在兩個不同的編輯操作之間進行比較，選擇候選方案並評估候選方案的美學質量。這些嘗試證明了美學評估技術的巨大潛力，它使計算機不僅可以告訴用戶照片是否美觀，還可以幫助用戶自動增強照片的視覺吸引力。

3、照片篩選以及相冊管理

個人照片數量激增使得手動管理大量照片會很耗時。因此，開發自動有效的照片選擇和管理工具是很有必要的。這類應用的輸入是一個個人相冊，它可以是與朋友旅行時拍的照片，也可以是家庭聚會時拍的照片。照片中可以包含多個對象，也可以是由不同設備在不同場景下拍攝的。此類應用的核心演算法是評價照片的吸引力。人們希望通過圖像美學質量評價演算法選出美學分數高的、更有吸引力的照片。

02研究現狀

2.1 圖像美學資料庫

1）The http://Photo.Net dataset (PN)

http://Photo.Net數據集在[1]中有介紹。它包含20,278張圖片，每張圖片至少有10個評分。評分範圍從0到7，7為最美觀的照片。

2）The CUHK-Photo Quality (CUHK-PQ)

CUHK-PQ在[2]和[3]中有介紹。它包含從http://DPChallenge.com上收集的17690張圖片。所有圖像被賦予二元審美標籤，並被分組成7個場景類別，即「動物」，「植物」，「靜物」，「建築」，「風景」，「人物」和「夜景」。下圖為CUHK-PQ數據集中的示例圖像（綠色框內為高質量圖像，紅色框內為低質量圖像）及圖像數量分布。

3）The Aesthetic Visual Analysis dataset (AVA)

AVA數據集在[4]中被提出。它大約包含250,000張圖片，這些照片是http://DPChallenge.com上獲取的。每張圖片由78~549名評分者得分，分數範圍為1到10。平均分作為每張圖片的真值標籤。數據集作者根據每張圖片的本文信息，為每張圖片都標註了1至2個語義標籤。整個數據集總共有66種文本形式的語義標籤。出現頻率較高的語義標籤有：Nature，Black and White，Landscape，still-life等。AVA數據集中的圖片還做了攝影屬性標註，一共有14個攝影屬性，下面列出了部分屬性以及包含該屬性的圖片數量：Complementary Colors (949)， Duotones (1301)， High Dynamic Range (396)， Image Grain (840)， Light on White (1199)， Long Exposure (845)。下圖為AVA數據集中的示例圖像（綠色框內平均分大於5的圖像，紅色框內為平均分小於5的圖像，兩個框內右邊的圖像都是平均分在5左右的）及圖像數量分布。

2.2 研究思路

圖像美學質量評估的主流方法可以分解為兩個主要部分，即特徵提取部分和決策部分。

2.2.1 特徵提取階段

①人工設計特徵

Yan Ke等人[5]提出了從一些攝影學知識入手構造有高層語義的特徵，該論文構造的特徵很少（7維），基本都是有高層語義的，描述了圖片簡潔性、清晰度、顏色、對比度、平均亮度(曝光度)等。Datta等人[6]用底層特徵（顏色、紋理、形狀、圖片大小等）和高層特徵（景深、三分法則、區域對比度)作為圖像美學特徵，共56維。Luo等人[7]認為應該把前景和背景先分離，然後把前-背景對比度作為重要特徵，這篇論文用的特徵更少，只有5維，包括清晰度對比度，亮度對比度，顏色的簡潔性、和諧度，三分法則的符合程度。Marchesotti等人[8]直接用SIFT(BOV或者FisherVector)和局部顏色描述子來進行美學圖像分類。

手動設計美學特徵往往是受攝影或心理學啟發，它們有一些已知的局限性。。首先，人工設計特徵範圍有限。其次，由於某些攝影或心理規則的模糊性以及在計算上實施的難度，這些手動設計的特徵通常僅僅是這些規則的近似值，因此很難確保這些特徵的有效性。即使是非常有經驗的攝影師也都是使用非常抽象的術語來描述高質量的照片，很難做到量化和全面。而通用的特徵如如SIFT和Fisher Vector等，是用來捕捉自然圖像的一般特徵，而不是專門用於描述圖像的美學，因此也有很大的局限性。

②深度特徵

隨著基於深度學習的技術的發展，研究者們在圖像美學評評估任務中引入了深度卷積神經網路[9]~[14]。由於其強大的自動特徵學習能力，不需要人們有豐富的圖像美學知識和攝影經驗就可以自動提取圖像美學特徵。近幾年來，深度卷積神經網路在圖像美學評價方面展現出了良好的性能，成為了解決圖像美學評價問題的主流方法。

雖然深度卷積神經網路在提取圖像美學特徵方面有著出色的表現，但它也存在著很大的局限性。神經網路要求輸入大小是固定的，這對將深度神經網路演算法應用於美學評估提出了特別的挑戰。為了滿足輸入大小的要求，輸入圖像需要在輸入到神經網路之前進行裁剪，縮放或填充。這些轉換往往會損害原始圖像的美感。裁剪會對圖像構圖產生負面影響，例如將原本遵循三分法的構圖好的照片變成構圖不好的照片；縮放會使圖片中的顯著對象變形；填充加均勻縮放縮小了原始圖像解析度並損害了重要對象的細節清晰度，填充還會引入原始圖像和填充區域之間的人為邊界，這可能會混淆神經網路，從而損害網路學習良好判別特徵的能力。

2.2.2 決策階段

決策階段是將提取到的圖像美學特徵訓練一個分類器或者回歸模型，來進行分類或回歸。訓練到的模型可以把圖像區分為高美學質量圖像和低美學質量圖像，也可以給圖像一個美學質量得分。常用的方法有樸素貝葉斯分類器，支持向量機和深度分類器等。將提取的美學特徵與評分值形成映射，然後利用這個映射關係做決策。

2.3 研究方法

在這裡我們對傳統方法做簡單介紹，然後重點介紹一下近些年比較熱門的深度學習方法。

2.3.1 傳統方法

圖像質量評估的傳統方法是人工設計特徵提取器，這需要大量的工程技術和領域專業知識。研究人員最先用全局特徵來表示圖像的美學特徵。Datta等[6]和Ke等[5]的工作是首先將圖像的審美理解轉化為二元分類問題。Datta等[6]結合了低級特徵和高級特徵，這些特徵通常用於圖像檢索，並訓練SVM分類器用於圖像美學質量的二值分類。Ke等人[5]提出了全局邊緣分布，顏色分布，色調計數和對比度和亮度指標來表示圖像，然後基於這些特徵訓練樸素貝葉斯分類器。Tong [15]的通過將全局低級簡單特徵（模糊性，對比度，鮮明度和顯著性）結合起來，以便對專業攝影師拍攝的照片和普通快照進行分類。這些開創性的工作都是首次嘗試使用手工設計的特徵對圖像的全局美學方面進行計算建模。

2.3.2 深度學習方法

從大量數據中學習圖像特徵已經在識別，定位，檢索和跟蹤等任務上表現出越來越高的性能，超越了傳統手工設計特徵的能力[16]。自從Krizhevsky等[16]採用卷積神經網路（CNN）進行圖像分類工作開始，越來越多的研究者開始通過深度學習方法學習圖像表示。

通過查閱文獻發現，目前研究點主要集中在三方面：（1）在網路輸入大小受限制的情況下，如何設計網路架構及網路輸入以達到同時保留圖像的全局信息和局部細節；（2）如何利用圖像的風格/語義信息，或者如何對不同內容的圖片選擇合適的美學質量評價模型；（3）圖像的美學質量得分以何種形式給出，比如二分類、回歸、排序等。

PAPID

Lu等人的RAPID模型[9]可以被認為是用美學數據訓練卷積神經網路的第一次嘗試。他們使用類似AlexNet的架構，其中最後一個全連接層輸出2維概率進行審美二元分類。本文對單路深度卷積神經網路方法進行了系統評價，並採用不同類型的輸入進行美學質量分類；另外本文提出了雙路深度卷積神經網路架構，以共同學習來自全局圖像和局部圖像特徵。性能最好的模型是通過將全局和局部CNN堆疊在一起形成雙列CNN（DCNN），其中來自每列的特徵表示（倒數第二層fc7輸出）在fc8層（分類層）之前級聯。此外，通過使用style-column 或者 semantic-column CNN合併圖像風格信息來進一步提高網路的表現。然後，將style-column CNN用作第三個輸入列，形成具有style/semantic信息（SDCNN）的三路CNN。其雙路CNN如下圖所示，全局視圖包括：中心裁剪，變形和填充。局部視圖通過隨機裁剪原始高解析度圖像得到。

本文比較了不同層組合和輸入的單路CNN（SCNN）在審美質量分類任務的性能。下表給出了七種不同的體系結構及其總體精度。

將網路結構固定為Arch 1，本文還比較了四種輸入下SCNN的性能。

雙路CNN性能如下表所示。

DMA-Net

DMA-net在[10]中提出，本文認為，之前的深度卷積神經網路大多是從每幅圖像中提取出一個patch作為訓練樣本。然而，一個patch並不能很好地代表整個圖像，這可能會導致在訓練過程中的歧義。本文提出了一個深度多patch聚合網路訓練方法，它允許使用從一個圖像生成的多個patch來訓練模型。其網路結構如下圖所示。

它包含兩個主要部分：一組CNN，用於從多個輸入patch中提取特徵；以及一個無序的聚合結構，它組合來自CNN的輸出特徵。為了組合來自一個輸入圖像的採樣圖像塊的多個特徵輸出，本文設計了統計聚集結構（最小，最大，中值和平均）從無序採樣圖像塊中聚集特徵。另一種聚合結構是基於排序設計的。兩種聚合方法結構如下圖。

下面的結果證實了一個想法，即多個patch上的訓練網路比單個patch上的網路訓練產生更好的預測性能。

AADB

Kong等[11]提出通過圖像對排序以及圖像屬性和內容信息來學習美學特徵。作者認為，自動生成照片美學排序對實際應用程序是很有幫助的。然而，以前的圖像美學分析方法主要集中在粗糙的，二元的將圖像分類為高或低審美類別。本文建議用深度卷積神經網路來對照片美學進行排序，在照片美學中，照片美學的相對排名可以直接在損失函數中建模。

為了訓練和分析這個模型，構建了一個新的美學和屬性資料庫（AADB），這個資料庫包含由多個評價者給每個圖像分配的美學分數和有意義的屬性。評價者身份也被記錄在圖像中。

具體來說，採用以圖像對為輸入的Siamese架構，其中Siamese架構的兩個基礎網路都採用AlexNet（去除AlexNet的1000類分類層fc8）。在第一階段，基礎網路在美學數據上預訓練並進行微調，期間使用歐幾里得損失回歸層。之後，Siamese網路對每個採樣圖像對的損失進行排序。收斂後，微調的基礎網路被用作初步特徵提取器。

在第二階段，將屬性預測分支添加到基礎網路以預測圖像屬性信息，然後通過結合評分的歐幾里得損失、屬性分類損失和排名損失，使用多任務方式繼續對基礎網路進行微調。

在第三階段，另一個內容分類分支被添加到基礎網路以預測預定義的一組類別標籤。收斂時，內容分類預測的softmax輸出作為加權向量，用於加權每個特徵分支（美學分支，屬性分支和內容分支）產生的分數。

在最後階段，將帶有額外分支的基礎網路與固定的內容分類分支一起進行微調。實驗結果表明，通過考慮屬性和類別內容信息來學習美學特徵是非常有效的。

MNA

神經網路一般採用固定尺寸輸入。為了適應這種需求，輸入圖像需要通過裁剪，縮放或填充進行轉換，這往往會損壞圖像的構圖，降低圖像解析度，或導致圖像失真，從而損害原始圖像的美感。本文提出了一個composition-preserving的方法，它直接從原始輸入圖像中學習美學特徵，而不需要任何圖像轉換。具體來說，該方法在常規的卷積層和池化層之上增加了一個自適應的空間池化層來直接處理原始大小和長寬比的輸入圖像。為了能夠進行多尺度的特徵提取，提出了Multi-Net Adaptive Spatial Pooling ConvNet架構，該架構由多個具有不同自適應空間池化大小的子網路組成，另外，還利用基於場景的聚合層來有效地結合多個子網路的預測結果。網路結構如下圖。

該方法與其他方法性能比較如下表所示。[29]為AVA，[24]為RAPID，[26]為DMA-Net。

A-Lamp

本中[21]提出了一種A-Lamp CNN架構來同時學習細粒度和整體布局。其網路輸入如下圖右側所示。其中自適應選擇的圖像塊來保留圖像的細粒度，屬性圖用來保留圖像的整體布局。

其網路結構如下圖。

與DMA-Net相比，這個方案有兩個主要的創新。首先，提出了一個自適應的多patch選擇策略，而不是隨機的修剪。自適應多patch選擇的核心思想是更有效地最大化輸入信息。通過專門挑選對圖像美學影響較大的patch來實現這一目標。其次，與只專註於細粒度細節的DMA-Net不同，A-Lamp CNN通過屬性圖的構建整合了整體布局。使用圖形節點來表示圖像中的對象和全局場景。每個對象（注釋）都使用對象特定的局部屬性來描述，而整個場景則用全局屬性來表示。局部和全局屬性的組合可以有效地捕捉圖像的布局。實驗結果如下表。

NIMA

谷歌的研究團隊在[20]這篇論文中提出了一種深度CNN，能夠從直接觀感（技術角度）與吸引程度（美學角度）預測人類對圖像評估意見的分布。之前的方法都是將圖像美學質量進行二分類或者對美學評分進行回歸。這忽略了一個事實，即訓練數據中的每個圖像都與人類評分的直方圖相關聯，而非簡單的分類。人類評價直方圖是評價圖像整體質量的指標。NIMA模型不是簡單地將圖像分為高或低質量，或者進行回歸得到平均分，而是對任意給定的圖像產出評級分布——分數從1到10，NIMA計算出各個分數的可能性。這也與訓練數據的來源相一致。與其他方法相比，這種方法更直接地揭示了訓練數據是如何被捕獲的，更能呈現對於人類偏好的更好預測。論文使用的基本網路結構如下圖所示。分類網路的最後一層被全連接層取代，以輸出10類質量分數。

性能如下表。

其它

Peng等[17]提出針對8種不同的抽象任務（情感分類，藝術家分類，藝術風格分類，美學分類，時尚風格分類，建築風格分類，記憶性預測和趣味性預測），對AlexNet-like架構的CNN進行訓練。特別是，美學分類CNN的最後一層被修改，以輸出二維 softmax概率。使用美學數據從頭開始訓練CNN，並且使用倒數第二層（fc7）輸出作為特徵表示。為了進一步分析從其他任務中學到的特徵的有效性，Peng等人分析了不同的預訓練和微調策略，並評估了來自8個CNN的級聯fc7特徵的不同組合的性能。

Wang等[18]提出了一種從AlexNet架構修改的CNN。具體來說，AlexNet的conv5層被一組7個卷積層（相對於不同的場景類別）所代替，在進入完全連接的層之前，它們以平均匯聚的方式平行堆疊，全連接層fc6和fc7被修改為輸出512個特徵圖而不是4096個，以便更有效地進行參數學習。對於二元分類，1000級softmax輸出更改為2級softmax（fc8）。

Zhang等[19]提出了一種用於學習美學特徵表示的雙列CNN。第一列（CNN1）將圖像塊作為輸入，第二列（CNN2）將全局圖像作為輸入。在給定輸入圖像的情況下，不是隨機採樣圖像塊，而是使用弱監督學習演算法將從圖像標籤學習的一組D個文本屬性投影到對應的圖像區域。然後這些圖像區域作為CNN1的輸入。

03 挑戰與展望

美學的主觀性決定了圖像美學質量評價是一個非常具有挑戰性的任務。到目前為止，在圖像美學評估方面湧現出了很多具有競爭力的模型，但是這個領域的研究狀況還遠未達到飽和。其中如何提取和構造有效的圖像美學特徵是其中最大的難點。人工設計的美學特徵很難被量化，同時也很難全面。深度學習方法具有強大的自動特徵學習能力，這使得人們不需要有豐富的圖像美學知識和攝影經驗就可以提取圖像美學特徵。深度學習因而成為現階段圖像美學質量評價的主流方法。

深度卷積神經網路在提取圖像美學特徵方面最大的局限性是其要求輸入圖像大小是固定的，而輸入圖像需要在輸入到神經網路之前進行裁剪、縮放或填充等操作會破壞圖像原有的構圖，從而可能損害圖像的原始美感，如何同時保留圖像的全局信息和局部信息是一個主要挑戰。

將深度學習方法應用於圖像美學質量評價面臨的挑戰還包括圖像美學真值標籤的模糊性以及如何從有限的輔助信息中學習特定類別的圖像美學。圖像美學評估需要具有更豐富注釋的、規模更大的資料庫，其中每個圖像最好由具有不同背景的、數量更多的用戶標記。這樣一個龐大而又多樣化的數據集將有大大推動未來圖像美學質量評價模型的學習。

參考文獻：

[1] Joshi, Dhiraj, et al. "Aesthetics and Emotions in Images." IEEE Signal Processing Magazine 28.5 (2011): 94-115.

[2] Luo, Wei, Xiaogang Wang, and Xiaoou Tang. "Content-based photo quality assessment." international conference on computer vision (2011): 2206-2213.

[3] Tang, Xiaoou, Wei Luo, and Xiaogang Wang. "Content-Based Photo Quality Assessment." IEEE Transactions on Multimedia 15.8 (2013): 1930-1943.

[4] Murray, Naila, Luca Marchesotti, and Florent Perronnin. "AVA: A large-scale database for aesthetic visual analysis." computer vision and pattern recognition (2012): 2408-2415.

[5] Ke, Yan, Xiaoou Tang, and Feng Jing. "The Design of High-Level Features for Photo Quality Assessment." computer vision and pattern recognition (2006): 419-426.5

[6] Datta, Ritendra, Jia Li, and James Ze Wang. "Studying aesthetics in photographic images using a computational approach." european conference on computer vision (2006): 288-301.

[7] Luo, Yiwen, and Xiaoou Tang. "Photo and Video Quality Evaluation: Focusing on the Subject." european conference on computer vision (2008): 386-399.

[8] Marchesotti, Luca, et al. "Assessing the aesthetic quality of photographs using generic image descriptors." international conference on computer vision (2011): 1784-1791.

[9] Lu, Xin, et al. "RAPID: Rating Pictorial Aesthetics using Deep Learning." acm multimedia (2014): 457-466.

[10] Lu, Xin, et al. "Deep Multi-patch Aggregation Network for Image Style, Aesthetics, and Quality Estimation." international conference on computer vision (2015): 990-998.

[11] Kong, Shu, et al. "Photo Aesthetics Ranking Network with Attributes and Content Adaptation." european conference on computer vision (2016): 662-679.

[12] Lu, Xin, et al. "Rating Image Aesthetics Using Deep Learning." IEEE Transactions on Multimedia 17.11 (2015): 2021-2034.

[13] Wang, Zhangyang, et al. "Brain-Inspired Deep Networks for Image Aesthetics Assessment." arXiv: Computer Vision and Pattern Recognition (2016).

[14] Y. Kao, K. Huang, and S. Maybank, 「Hierarchical aesthetic quality assessment using deep convolutional neural networks,」 Signal Processing: Image Communication (2016).

[15] Tong, Hanghang, et al. "Classification of Digital Photos Taken by Photographers or Home Users." pacific rim conference on multimedia (2004): 198-205.

[16] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "ImageNet Classification with Deep Convolutional Neural Networks." neural information processing systems (2012): 1097-1105

[17] Peng, Kuanchuan, and Tsuhan Chen. "Toward correlating and solving abstract tasks using convolutional neural networks." workshop on applications of computer vision (2016): 1-9.

[18] W. Wang, M. Zhao, L. Wang, J. Huang, C. Cai, and X. Xu, 「A multi-scene deep learning model for image aesthetic evaluation,」 Signal Processing: Image Communication (2016)

[19] Zhang, L.. "Describing Human Aesthetic Perception by Deeply-learned Attributes from Flickr." arXiv: Computer Vision and Pattern Recognition (2016).

[20] Talebi, Hossein, and P. Milanfar. "NIMA: Neural Image Assessment." (2017).

[21] Ma, Shuang, J. Liu, and C. W. Chen. "A-Lamp: Adaptive Layout-Aware Multi-Patch Deep Convolutional Neural Network for Photo Aesthetic Assessment." (2017):722-731.

[22] Deng, Yubin, Chen Change Loy, and Xiaoou Tang. "Image Aesthetic Assessment: An experimental survey." IEEE Signal Processing Magazine 34.4 (2017): 80-106.

如果想加入我們，後台留言

更多請移步