【方向綜述】一文說說這十多年來計算機玩攝影的歷史(深度學習)

本文首發於微信公眾號《與有三學AI》

一文說說這十多年來計算機玩攝影的歷史mp.weixin.qq.com圖標

0 導論

我是一個AI行業的從業者,也是一個攝影愛好者。

在不斷接觸攝影技術的過程中,也不斷地開始了解計算機演算法,尤其是最新的深度學習技術在其中發揮的作用。

這篇文章的目的,是一個導論,面向的對象,也是大眾。但是,本著稍求甚解的原則,我接下來會盡量照顧受眾的同時,也說點技術。

攝影,說的粗淺一點,就說拍照吧,本身並不是一個技術很高的活,稍加訓練,就能成為合格的攝影師。

當然,攝影本身也可以是一門藝術,好的作品往往會帶入情緒等等。這是一個充滿抽象與主觀因素的領域。但我們不能因此陷在這個點上,不然下面就沒法說了。

好的照片,讓大眾心情愉悅,欣賞點贊的照片,是有共性的,而計算機玩攝影,就是要解決這個問題,怎麼學習到攝影師和大眾的審美。

所以下面正式拋出關鍵詞:photo aesthetics

1 一窺 aesthetics

總的來說,包含以下幾個大方向;

所謂photo aesthetics,即計算機美學,這是計算機視覺的一個研究方向。它研究通過計算機來學會人的審美,狹義而簡單的來說,就是判斷一張圖片是高質量的,還是低質量的,也就是好與壞,數學上這是一個2分類問題。很多早期的研究,以及相應的資料庫CUHK【1】,CUHKPQ【2】的標註,都是為這個而服務。

從下圖相關論文的數量趨勢來看,現在是一個很活躍的領域。

從研究的現狀來看,這也是一個遠遠沒有飽和的區域。

相比人臉檢測,美顏等,這是一個更抽象,更難的問題,還處於高速發展期。

從2006年左右,這個領域開始有了比較系統的研究,至今十年出頭。所以,我接下來的介紹,也是近10年的一個概覽。

上面說了,最簡單也是最直觀最早期的研究,就是分辨一張圖是好,還是不好,是個2分類問題。

但是2分類問題有它的兩個重大的局限性:

(1) 美學不是一個很嚴謹的數學問題,而是有很強的主觀性,有很多的圖,介於好圖與非好圖之間,難以2分類,分界面實在不清晰。這導致問題本身定義不明確,數據的標註也很困難。

(2) 如果只是一直做2分類問題研究,那很多的應用無法實現,直接點的如圖像檢索排名,間接點的如構圖推薦,自適應濾鏡

演變到後來,先是升級到了回歸問題,不僅分好壞,還要打個等級分。

什麼意思呢?每一個樣本的標註不再是2分類,不僅僅是包含好圖與壞圖的標註,而是有了一個量化的分數,比如AVA數據集【3】分數的標註從1到10。

研究就變成了如何回歸出其標註的分數,最後給出每張圖片的平均分數。

從應用層面上講,主要包括了圖像檢索,自動構圖,智能濾鏡,甚至是直接創作。

以上,就是通常意義下的photo aesthetics包含的內容,核心思想就是學習分辨與創作好圖。

2 photo aesthetics的主要研究方法

在說應用之前,還是先說說我們的研究手段。

從技術的突破來說,以深度學習為界限,可以從傳統方法和深度學習方法來說。不過對於大多數問題和應用這兩者最大的區別就是:前者是手動設計特徵,後者是自動學習特徵。

所以,這裡不從傳統方法和深度學習方法的維度來說,而是從研究問題的演變發展上說。

(1) 二分類問題。

1說了,最開始的時候,美學問題僅僅是被當做一個2分類問題。

早期的數據集CUHK【1】,CUHKPQ【2】,都只包含2分類的標註,也就是數據集中的圖片被人為分為了質量高與低的圖。

為了讓數據集更可靠,自然是選擇了一些區分度比較大,也就是不太容易產生歧義的圖片。質量好的,通常是大家都認為好,質量低的以此類推。

如下圖:

(a)是質量高的,(b)是質量低的,沒有疑問。

【2】可以認為是在【1】的基礎上問題的延續,它彌補了【1】中的巨大不足,就是不再對所有圖片一視同仁,而是不同類型的照片區分對待。

將所有的圖總共分為了7類,包括landscape,plant,animal,night,human,static,architecture。

上圖是一個示例,在研究過程中對不同的類別,開始採用不同的特徵,考慮了圖像的多樣性(diversity)。

這是必須的,因為攝影中對待不同類型的照片,就是必須用不同的表現手法。

比如人像攝影中,尤其是近照,需要控制好光照,使用大光圈。而風景照中最需要的是好的構圖與豐富的色彩表達。

2分類問題研究方法的進步,就是不斷利用新的深度學習模型去提取特徵,從alexnet【4】,到googlenet【5】到resnet【6】等的嘗試,以後專題介紹。

(2) 回歸問題。

由於2分類的局限性,自然而然的就演變成了回歸問題。

這個時候也就出現了新的供我們使用的資料庫,AVA【3】。

這是一個很大的資料庫,包括250000張照片。每一張照片,都有一個評分從1~10分。同時還有語義級別和照片風格的標註,以後我們詳說。

比較新的研究有【7】。相比於2分類問題,其實回歸問題也沒有太多新的東西,從數學上來說,無非就是輸出維度變了,loss function變了

不過在學習具體分數值的過程中,有些研究更進一步,預測了分數的分布。也就是不僅僅預測了圖片的質量分數,還預測了它的分數概率圖,比如【8】。

(3) 相對美學問題。

這個的出發點,是從人的主觀上進行考慮。對於人來說,容易判斷的是一張圖片的相對好壞,而不是絕對分數。

同時又由於更可靠穩定的有打分標註的數據集的獲取成本之高,催生了一些研究。就是在學習的過程中,沒有一個絕對的分數來指導你。

【8】,【9】都是相關研究。

從訓練上來看,這一般輸入的訓練是多個圖像,可能是兩個圖像,也可能是多個圖像,一起丟進網路去學習哪一個更好。

下面是一個結果展示,右邊的比左邊的質量高。相對美學,在圖像檢索和圖像增強中是有很大的作用的。

相對美學,是一個很值得研究的問題。

(4) 多任務學習問題

最簡單粗暴的方法,就是不管是什麼圖像,都直接提特徵,分類也好,回歸也好。但是,顯然這是不可能很好的解決問題的。

攝影美學是講究因材施教的,不同類型的圖像,審美標準完全不同。

那麼,直接對所有的圖片,採用同樣的方法學習,是不通,所以就有方法,或利用圖像style,semantic信息進行弱監督,或直接將style和score,semantic一起學習【10】。

至於怎麼做,按住不表,下回再論。

3 Photo aesthetics應用

總的來說,包含以下幾個大方向;

(1) 圖像檢索

我們在搜索引擎中搜索圖片時,自然是希望能夠盡量返回質量高的圖,恨不得是高清原圖。

但是目前的搜索引擎並不能做到。

因為,目前的都是基於tag做的檢索,而不是圖像本身的質量。

下面就在百度中搜了一個學校美照,出來的效果不怎麼樣。

學校沒得到體現,人像很多也是普普通通的大頭照,從攝影師的角度來看,真的很一般。

當然,你也可以去搜索更多的關鍵詞,反正我在使用過程中常常不滿意。Google圖片質量比百度高,但是也還有很大的發展空間。

(2) 圖像自動構圖

自動裁剪這個,自打用上iphone起,它的照片管理工具就自帶這個功能了,但是其他好用的app,我還沒有發現。

這是個什麼問題,專業點的說法,就是攝影構圖

它做的就是去除不必要的元素,合理安排畫面中的元素分布。

每一個攝影師拍完照做後期時,第一步肯定就是做圖像裁剪。

就算是最後沒有裁剪,第一步也會看是不是需要裁剪!

為什麼。因為你拍照的時候,很多時候來不及細細的去構圖,

只有在後期認真想的時候,

才會去精細地調整。

據我體驗,目前iphone照片管理軟體的自動裁剪功能,主要還是對人像管用,下面給大家看個例子就知道了。

乾脆把兩張前後對比圖拿過來大家瞧瞧,想想為什麼要這麼裁剪?

自動裁剪前

自動裁剪後

可以看出,去除了更多的干擾,使畫面更加平衡與和諧。

關於更多的構圖攝影知識,請關注我另一個攝影公眾號《言有三工作室》,裡面有大量的教程可以學習體驗。

至於構圖的一些研究,可以參考【11】【12】,下回說細節。

(3) 自適應濾鏡

現在就沒有一個app能夠自動推薦濾鏡,後期很多的時候是很繁瑣的。

對於菜鳥來說,只能去各種嘗試已有的濾鏡。

對於高手來說,需要很多時間來積累經驗,也需要時間去選擇更好的方案。

費時費力,還不一定能達到最好的效果,所以,我們其實都很期待出現一個app,

能夠自動幫我們選擇一個好的風格濾鏡。

可惜,現在比較優秀的後期app,如snapseed,潑辣修圖,也僅僅是能夠對圖像的對比度,亮度等自適應地做些調整。

關於現有的發展,更詳細的介紹,在我的攝影公眾號《言有三工作室》的文章

Apple和Google他們為小白們的修圖大業做了什麼?中有詳細的說明,大家有興趣可以自行前往閱讀。

現在比較好的研究,也有一些。

像名字取得比較嚇人的【13】,號稱end-to-end可以把手機照片提升至單反畫質,不過實際效果看來,主要是減少了陰影,總體上學習到了使圖像變得更加通透。缺點是對比度經常放的太高,同時因為採用了GAN,放大了雜訊。

這種事當然不能少了湯曉鷗他們團隊,EnhanceGAN算是很新的應用了【14】,也成功地學習到了顏色,對比度等調整方法,不是end-to-end的方法,而是image-crop與enhancement交叉訓練。

最大的優點是不需要成對的標註圖像了(這是通過gan,和一批有著2分類標籤的高質量圖和低質量圖來實現的)。

早期的方法【15】是需要成對的標註圖像,成本太高,所以數據集不可能很大。以後不需要成對圖像做訓練的方法,必將成為主流。

(4) 風格化

這個,其實已經踏進藝術的創作,而不僅僅是攝影的範疇了。

行內人士可能還記得《image style transfer using convolutional neural networks》【16】這篇文章,後來催生了prisma,當時那個很火的濾鏡。

整個的流程就如同下面這樣,一張原圖,一個風格,最後做融合。

不過,沒過多久,就退燒了。畢竟,那樣玩圖太「高級」,不是大眾剛需,也就沒見人玩了。

但是,並不是說他就不重要的了。

像pixtopix【17】這樣的文章出來之後,風格化仍然有很大的市場。

比如黑白圖像上色,比如圖像風格轉化(夏天冬天風格轉化)【18】,甚至做得極端點,cycle-gan【19】這樣的,不需要成對地標註,把斑馬和馬相互轉換的有意思的研究。

未來,還大有可為!

4 Photo aesthetics焦點問題

難點

(1) 怎麼利用數學的方法去建模內部的美學規則。

(2) 怎樣自適應調整不同的圖片之間的美學差異。

(3) 如何準確判斷一張圖採用的技術。

(4) 怎樣獲取一個標註詳細的大資料庫。

熱點

(1) 網路結構設計相關問題,如多尺度多patch。

(2) 圖片風格,語義信息的應用。

(3) 怎麼自動獲取數據的標註。

(4) 最新技術在其中的應用,GAN。

這一次,只是一個入門介紹,後續,敬請期待!

作者簡介:

言有三,原360AI研究院工程師,一個攝影愛好者。

更多請移步

1,我的gitchat達人課

龍鵬的達人課gitbook.cn圖標

2,AI技術公眾號,《與有三學AI》

[caffe解讀] caffe從數學公式到代碼實現1-導論mp.weixin.qq.com圖標

3,以及攝影號,《有三工作室》

馮小剛說,「他懂我」mp.weixin.qq.com圖標

如果有土豪覺得文章OK,想打個賞,那就樂呵呵接受了!

【1】Y. Ke, X. Tang, and F. Jing. The design of high-level features for photo quality assessment. In CVPR, 2006. 1, 3, 6

【2】W. Luo, X. Wang, and X. Tang. Content-based photo quality assessment. In ICCV, 2011. 1, 3, 6, 7

【3】Perronnin F, Marchesotti L, Murray N. AVA: A large-scale database for aesthetic visual analysis[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:2408-2415.

【4】Lu X, Lin Z, Jin H, et al. RAPID: Rating Pictorial Aesthetics using Deep Learning[J]. IEEE Transactions on Multimedia, 2015, 17(11):2021-2034.

【5】Jin X, Wu L, He Z, et al. Efficient Deep Aesthetic Image Classification using Connected Local and Global Features[J]. 2017:1-6.

【6】Murray N, Gordo A. A deep architecture for unified aesthetic prediction[J]. 2017.

【7】Malu G, Bapi R S, Indurkhya B. Learning Photography Aesthetics with Deep CNNs[J]. 2017.

【8】PKong S, Shen X, Lin Z, et al. Photo Aesthetics Ranking Network with Attributes and Content Adaptation[J]. 2016:662-679.

【9】Chandakkar P S, Gattupalli V, Li B. A Computational Approach to Relative Aesthetics[J]. 2017.

【10】Kao Y, He R, Huang K. Deep Aesthetic Quality Assessment with Semantic Information[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2017, 26(3):1482.

【11】Chen Y L, Huang T W, Chang K H, et al. Quantitative Analysis of Automatic Image Cropping Algorithms: A Dataset and Comparative Study[J]. 2017:226-234.

【12】Wang W, Shen J. Deep Cropping via Attention Box Prediction and Aesthetics Assessment[J]. 2017.

【13】Ignatov A, Kobyshev N, Timofte R, et al. DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks[J]. 2017.

【14】Deng Y, Chen C L, Tang X. Aesthetic-Driven Image Enhancement by Adversarial Learning[J]. 2017.

【15】Yan Z, Zhang H, Paris S, et al. Automatic Photo Adjustment Using Deep Neural Networks[J]. Acm Transactions on Graphics, 2016, 35(2):11.

【16】Gatys L A, Ecker A S, Bethge M. Image Style Transfer Using Convolutional Neural Networks[C]// Computer Vision and Pattern Recognition. IEEE, 2016:2414-2423.

【17】Isola P, Zhu J Y, Zhou T, et al. Image-to-Image Translation with Conditional Adversarial Networks[J]. 2016.

【18】Luan F, Paris S, Shechtman E, et al. Deep Photo Style Transfer[J]. 2017.

【19】Zhu J Y, Park T, Isola P, et al. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks[J]. 2017.


推薦閱讀:

TAG:深度學習DeepLearning | 攝影 | 娛樂AI |