【方向綜述】一文說說這十多年來計算機玩攝影的歷史(深度學習)
本文首發於微信公眾號《與有三學AI》
一文說說這十多年來計算機玩攝影的歷史0 導論
我是一個AI行業的從業者,也是一個攝影愛好者。
在不斷接觸攝影技術的過程中,也不斷地開始了解計算機演算法,尤其是最新的深度學習技術在其中發揮的作用。
這篇文章的目的,是一個導論,面向的對象,也是大眾。但是,本著稍求甚解的原則,我接下來會盡量照顧受眾的同時,也說點技術。
攝影,說的粗淺一點,就說拍照吧,本身並不是一個技術很高的活,稍加訓練,就能成為合格的攝影師。
當然,攝影本身也可以是一門藝術,好的作品往往會帶入情緒等等。這是一個充滿抽象與主觀因素的領域。但我們不能因此陷在這個點上,不然下面就沒法說了。
好的照片,讓大眾心情愉悅,欣賞點贊的照片,是有共性的,而計算機玩攝影,就是要解決這個問題,怎麼學習到攝影師和大眾的審美。
所以下面正式拋出關鍵詞:photo aesthetics
1 一窺 aesthetics
總的來說,包含以下幾個大方向;
所謂photo aesthetics,即計算機美學,這是計算機視覺的一個研究方向。它研究通過計算機來學會人的審美,狹義而簡單的來說,就是判斷一張圖片是高質量的,還是低質量的,也就是好與壞,數學上這是一個2分類問題。很多早期的研究,以及相應的資料庫CUHK【1】,CUHKPQ【2】的標註,都是為這個而服務。
從下圖相關論文的數量趨勢來看,現在是一個很活躍的領域。
從研究的現狀來看,這也是一個遠遠沒有飽和的區域。
相比人臉檢測,美顏等,這是一個更抽象,更難的問題,還處於高速發展期。
從2006年左右,這個領域開始有了比較系統的研究,至今十年出頭。所以,我接下來的介紹,也是近10年的一個概覽。
上面說了,最簡單也是最直觀最早期的研究,就是分辨一張圖是好,還是不好,是個2分類問題。
但是2分類問題有它的兩個重大的局限性:
(1) 美學不是一個很嚴謹的數學問題,而是有很強的主觀性,有很多的圖,介於好圖與非好圖之間,難以2分類,分界面實在不清晰。這導致問題本身定義不明確,數據的標註也很困難。
(2) 如果只是一直做2分類問題研究,那很多的應用無法實現,直接點的如圖像檢索排名,間接點的如構圖推薦,自適應濾鏡。
演變到後來,先是升級到了回歸問題,不僅分好壞,還要打個等級分。
什麼意思呢?每一個樣本的標註不再是2分類,不僅僅是包含好圖與壞圖的標註,而是有了一個量化的分數,比如AVA數據集【3】分數的標註從1到10。
研究就變成了如何回歸出其標註的分數,最後給出每張圖片的平均分數。
從應用層面上講,主要包括了圖像檢索,自動構圖,智能濾鏡,甚至是直接創作。
以上,就是通常意義下的photo aesthetics包含的內容,核心思想就是學習分辨與創作好圖。
2 photo aesthetics的主要研究方法
在說應用之前,還是先說說我們的研究手段。
從技術的突破來說,以深度學習為界限,可以從傳統方法和深度學習方法來說。不過對於大多數問題和應用這兩者最大的區別就是:前者是手動設計特徵,後者是自動學習特徵。
所以,這裡不從傳統方法和深度學習方法的維度來說,而是從研究問題的演變發展上說。
(1) 二分類問題。
1說了,最開始的時候,美學問題僅僅是被當做一個2分類問題。
早期的數據集CUHK【1】,CUHKPQ【2】,都只包含2分類的標註,也就是數據集中的圖片被人為分為了質量高與低的圖。
為了讓數據集更可靠,自然是選擇了一些區分度比較大,也就是不太容易產生歧義的圖片。質量好的,通常是大家都認為好,質量低的以此類推。
如下圖:
(a)是質量高的,(b)是質量低的,沒有疑問。
【2】可以認為是在【1】的基礎上問題的延續,它彌補了【1】中的巨大不足,就是不再對所有圖片一視同仁,而是不同類型的照片區分對待。
將所有的圖總共分為了7類,包括landscape,plant,animal,night,human,static,architecture。
上圖是一個示例,在研究過程中對不同的類別,開始採用不同的特徵,考慮了圖像的多樣性(diversity)。
這是必須的,因為攝影中對待不同類型的照片,就是必須用不同的表現手法。
比如人像攝影中,尤其是近照,需要控制好光照,使用大光圈。而風景照中最需要的是好的構圖與豐富的色彩表達。
2分類問題研究方法的進步,就是不斷利用新的深度學習模型去提取特徵,從alexnet【4】,到googlenet【5】到resnet【6】等的嘗試,以後專題介紹。
(2) 回歸問題。
由於2分類的局限性,自然而然的就演變成了回歸問題。
這個時候也就出現了新的供我們使用的資料庫,AVA【3】。
這是一個很大的資料庫,包括250000張照片。每一張照片,都有一個評分從1~10分。同時還有語義級別和照片風格的標註,以後我們詳說。
比較新的研究有【7】。相比於2分類問題,其實回歸問題也沒有太多新的東西,從數學上來說,無非就是輸出維度變了,loss function變了。
不過在學習具體分數值的過程中,有些研究更進一步,預測了分數的分布。也就是不僅僅預測了圖片的質量分數,還預測了它的分數概率圖,比如【8】。
(3) 相對美學問題。
這個的出發點,是從人的主觀上進行考慮。對於人來說,容易判斷的是一張圖片的相對好壞,而不是絕對分數。
同時又由於更可靠穩定的有打分標註的數據集的獲取成本之高,催生了一些研究。就是在學習的過程中,沒有一個絕對的分數來指導你。
【8】,【9】都是相關研究。
從訓練上來看,這一般輸入的訓練是多個圖像,可能是兩個圖像,也可能是多個圖像,一起丟進網路去學習哪一個更好。
下面是一個結果展示,右邊的比左邊的質量高。相對美學,在圖像檢索和圖像增強中是有很大的作用的。
相對美學,是一個很值得研究的問題。
(4) 多任務學習問題
最簡單粗暴的方法,就是不管是什麼圖像,都直接提特徵,分類也好,回歸也好。但是,顯然這是不可能很好的解決問題的。
攝影美學是講究因材施教的,不同類型的圖像,審美標準完全不同。
那麼,直接對所有的圖片,採用同樣的方法學習,是不通,所以就有方法,或利用圖像style,semantic信息進行弱監督,或直接將style和score,semantic一起學習【10】。
至於怎麼做,按住不表,下回再論。
3 Photo aesthetics應用
總的來說,包含以下幾個大方向;
(1) 圖像檢索
我們在搜索引擎中搜索圖片時,自然是希望能夠盡量返回質量高的圖,恨不得是高清原圖。
但是目前的搜索引擎並不能做到。
因為,目前的都是基於tag做的檢索,而不是圖像本身的質量。
下面就在百度中搜了一個學校美照,出來的效果不怎麼樣。
學校沒得到體現,人像很多也是普普通通的大頭照,從攝影師的角度來看,真的很一般。
當然,你也可以去搜索更多的關鍵詞,反正我在使用過程中常常不滿意。Google圖片質量比百度高,但是也還有很大的發展空間。
(2) 圖像自動構圖
自動裁剪這個,自打用上iphone起,它的照片管理工具就自帶這個功能了,但是其他好用的app,我還沒有發現。
這是個什麼問題,專業點的說法,就是攝影構圖。
它做的就是去除不必要的元素,合理安排畫面中的元素分布。
每一個攝影師拍完照做後期時,第一步肯定就是做圖像裁剪。
就算是最後沒有裁剪,第一步也會看是不是需要裁剪!
為什麼。因為你拍照的時候,很多時候來不及細細的去構圖,
只有在後期認真想的時候,
才會去精細地調整。
據我體驗,目前iphone照片管理軟體的自動裁剪功能,主要還是對人像管用,下面給大家看個例子就知道了。
乾脆把兩張前後對比圖拿過來大家瞧瞧,想想為什麼要這麼裁剪?
自動裁剪前
自動裁剪後
可以看出,去除了更多的干擾,使畫面更加平衡與和諧。
關於更多的構圖攝影知識,請關注我另一個攝影公眾號《言有三工作室》,裡面有大量的教程可以學習體驗。
至於構圖的一些研究,可以參考【11】【12】,下回說細節。
(3) 自適應濾鏡
現在就沒有一個app能夠自動推薦濾鏡,後期很多的時候是很繁瑣的。
對於菜鳥來說,只能去各種嘗試已有的濾鏡。
對於高手來說,需要很多時間來積累經驗,也需要時間去選擇更好的方案。
費時費力,還不一定能達到最好的效果,所以,我們其實都很期待出現一個app,
能夠自動幫我們選擇一個好的風格濾鏡。
可惜,現在比較優秀的後期app,如snapseed,潑辣修圖,也僅僅是能夠對圖像的對比度,亮度等自適應地做些調整。
關於現有的發展,更詳細的介紹,在我的攝影公眾號《言有三工作室》的文章
Apple和Google他們為小白們的修圖大業做了什麼?中有詳細的說明,大家有興趣可以自行前往閱讀。
現在比較好的研究,也有一些。
像名字取得比較嚇人的【13】,號稱end-to-end可以把手機照片提升至單反畫質,不過實際效果看來,主要是減少了陰影,總體上學習到了使圖像變得更加通透。缺點是對比度經常放的太高,同時因為採用了GAN,放大了雜訊。
這種事當然不能少了湯曉鷗他們團隊,EnhanceGAN算是很新的應用了【14】,也成功地學習到了顏色,對比度等調整方法,不是end-to-end的方法,而是image-crop與enhancement交叉訓練。
最大的優點是不需要成對的標註圖像了(這是通過gan,和一批有著2分類標籤的高質量圖和低質量圖來實現的)。
早期的方法【15】是需要成對的標註圖像,成本太高,所以數據集不可能很大。以後不需要成對圖像做訓練的方法,必將成為主流。
(4) 風格化
這個,其實已經踏進藝術的創作,而不僅僅是攝影的範疇了。
行內人士可能還記得《image style transfer using convolutional neural networks》【16】這篇文章,後來催生了prisma,當時那個很火的濾鏡。
整個的流程就如同下面這樣,一張原圖,一個風格,最後做融合。
不過,沒過多久,就退燒了。畢竟,那樣玩圖太「高級」,不是大眾剛需,也就沒見人玩了。
但是,並不是說他就不重要的了。
像pixtopix【17】這樣的文章出來之後,風格化仍然有很大的市場。
比如黑白圖像上色,比如圖像風格轉化(夏天冬天風格轉化)【18】,甚至做得極端點,cycle-gan【19】這樣的,不需要成對地標註,把斑馬和馬相互轉換的有意思的研究。
未來,還大有可為!
4 Photo aesthetics焦點問題
難點
(1) 怎麼利用數學的方法去建模內部的美學規則。
(2) 怎樣自適應調整不同的圖片之間的美學差異。
(3) 如何準確判斷一張圖採用的技術。
(4) 怎樣獲取一個標註詳細的大資料庫。
熱點
(1) 網路結構設計相關問題,如多尺度多patch。
(2) 圖片風格,語義信息的應用。
(3) 怎麼自動獲取數據的標註。
(4) 最新技術在其中的應用,GAN。
這一次,只是一個入門介紹,後續,敬請期待!
作者簡介:
言有三,原360AI研究院工程師,一個攝影愛好者。
更多請移步
1,我的gitchat達人課
龍鵬的達人課
2,AI技術公眾號,《與有三學AI》
[caffe解讀] caffe從數學公式到代碼實現1-導論
3,以及攝影號,《有三工作室》
馮小剛說,「他懂我」
如果有土豪覺得文章OK,想打個賞,那就樂呵呵接受了!
【1】Y. Ke, X. Tang, and F. Jing. The design of high-level features for photo quality assessment. In CVPR, 2006. 1, 3, 6
【2】W. Luo, X. Wang, and X. Tang. Content-based photo quality assessment. In ICCV, 2011. 1, 3, 6, 7
【3】Perronnin F, Marchesotti L, Murray N. AVA: A large-scale database for aesthetic visual analysis[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:2408-2415.
【4】Lu X, Lin Z, Jin H, et al. RAPID: Rating Pictorial Aesthetics using Deep Learning[J]. IEEE Transactions on Multimedia, 2015, 17(11):2021-2034.
【5】Jin X, Wu L, He Z, et al. Efficient Deep Aesthetic Image Classification using Connected Local and Global Features[J]. 2017:1-6.
【6】Murray N, Gordo A. A deep architecture for unified aesthetic prediction[J]. 2017.
【7】Malu G, Bapi R S, Indurkhya B. Learning Photography Aesthetics with Deep CNNs[J]. 2017.
【8】PKong S, Shen X, Lin Z, et al. Photo Aesthetics Ranking Network with Attributes and Content Adaptation[J]. 2016:662-679.
【9】Chandakkar P S, Gattupalli V, Li B. A Computational Approach to Relative Aesthetics[J]. 2017.
【10】Kao Y, He R, Huang K. Deep Aesthetic Quality Assessment with Semantic Information[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2017, 26(3):1482.
【11】Chen Y L, Huang T W, Chang K H, et al. Quantitative Analysis of Automatic Image Cropping Algorithms: A Dataset and Comparative Study[J]. 2017:226-234.
【12】Wang W, Shen J. Deep Cropping via Attention Box Prediction and Aesthetics Assessment[J]. 2017.
【13】Ignatov A, Kobyshev N, Timofte R, et al. DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks[J]. 2017.
【14】Deng Y, Chen C L, Tang X. Aesthetic-Driven Image Enhancement by Adversarial Learning[J]. 2017.
【15】Yan Z, Zhang H, Paris S, et al. Automatic Photo Adjustment Using Deep Neural Networks[J]. Acm Transactions on Graphics, 2016, 35(2):11.
【16】Gatys L A, Ecker A S, Bethge M. Image Style Transfer Using Convolutional Neural Networks[C]// Computer Vision and Pattern Recognition. IEEE, 2016:2414-2423.
【17】Isola P, Zhu J Y, Zhou T, et al. Image-to-Image Translation with Conditional Adversarial Networks[J]. 2016.
【18】Luan F, Paris S, Shechtman E, et al. Deep Photo Style Transfer[J]. 2017.
【19】Zhu J Y, Park T, Isola P, et al. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks[J]. 2017.
推薦閱讀:
TAG:深度學習DeepLearning | 攝影 | 娛樂AI |