圖像質量評價之結構相似性SSIM(中)
在上一篇文章中,我們介紹了對圖像質量進行評價的必要性、主觀評價和客觀評價的兩種標準,以及設計符合人類直覺的評價標準的困難性和重要性。
本來這篇文章想把我們的主角SSIM講完,但是發現前面需要寫的鋪墊有點長hhh,所以本文是作為一個過渡,系統的講解一下設計圖像評價標準的過程和目前的缺點,SSIM的詳細講解將在下一篇文章中介紹(保證下一篇是最後一篇,別打我QAQ)
提前預告一下,這一篇可能比較無聊==,但是對在腦海中構建一個整體框架還是挺有幫助的~
基於誤差敏感性的圖像質量評價
在對圖像質量進行評價時,我們會拿到一些未失真的原始圖像信號和一個失真圖像信號,之後我們將失真圖像與未失真圖像通過一定的方法進行比較,最終得到一個失真圖像與原始圖像的誤差。我們一般會假設失真圖像質量與得到的誤差直接相關,這樣這個誤差最終就被認為是衡量圖像質量的標準。
這裡面最簡單的例子就是MSE,但MSE效果是在太差(參照前面講的,同一個MSE對應不同質量的圖片),於是近年來新的方法不斷被提出。在這裡我們介紹一下提出一個新的基於誤差敏感性(error sensitivity)的評價標準的一般步驟,以及現有的方法有什麼局限性。
一般步驟
評價標準的設計過程一般分為預處理、CSF濾波、通道分解、誤差歸一化、誤差池化5步,下面分別簡單介紹,這個部分大略看看就好不需要完全理解~
- 預處理(pre-processing):首先,拿到圖像一般不能直接用,需要做些預處理,對圖像信號進行一些基本變換,比如縮放、排列,或者轉換顏色空間(color space),以及針對顯示設備逐像素進行變換等等。
- CSF濾波(CSF Filtering):接下來可能要對對預處理得到的圖像信號使用CSF進行加權。CSF的全稱是contrast sensitivity function,按照字面翻譯過來就是對比度敏感性函數。這個函數描述了人類視覺系統(HVS)對視覺刺激的時空頻率的敏感程度。CSF一般會用一個線性濾波器來近似實現。不過在現在的一些研究當中,是在後面提到的通道分解之後,用基頻靈敏度歸一化(base-sensitivity normalization)實現CSF。
- 通道分解(Channel Decomposition):圖像一般由多個通道(channel)組成(比如最常見的RGB+alpha通道)。經過前面兩步處理的圖像信號,往往需要再分解成多個不同的通道。把圖像信號分解成若干通道時,可以考慮視覺皮層的神經元的特性,也可以只做一些很簡單的變換,比如離散餘弦變換(discrete cosine transformDCT)、可分離的小波變換(separable wavelet transform)等等。
- 誤差歸一化(Error Normalization):分解完通道,我們混通過指標中的定義計算出失真圖像與參照圖像在每個通道的誤差。但是需要注意,各個通道計算出的誤差的數量級可能不一樣,需要歸一化到相當的水平。
- 誤差池化(Error Pooling):現在到了最後一步,就是把空間上各部分和各通道的誤差使用某種方法「合成」為一個數字,也就是我們最終得到的誤差啦~
其中,一個很經典的「合成」方法是使用閔可夫斯基範數(Minkowski Norm),公式是這樣滴:
這裡的 是第 個通道的第 個係數歸一化之後的誤差,而 是個常數,一般取1到4。我們可以選擇先累加 再累加 ,當然也可以反過來。
局限性
現在基於誤差敏感性的方法確實有用,不過局限性也有很多。其中一個很突出的問題是,人類視覺系統很複雜,是高度非線性的,但早期的評價標準很多都只使用了線性(linear)或準線性(quasilinear)運算元進行計算。
目前已經有很多對這些方法的局限性的研究了,這裡大略總結一下(這個部分只是簡單介紹,省略了原始論文中的一些細節說明):
- 圖像質量的定義問題(The Quality Definition Problem):對於傳統的評價方法來說,最基本的一個問題就是怎樣定義圖像質量。我們很難說圖像的質量上的損失是否就能體現保真程度。有些質量問題可以輕易觀察到,但是不太影響圖像的失真程度。比如說,我們把所有的像素都乘上一個常數,圖像並不會失真多少,但圖像的各像素值卻有明顯的變化。
- 超閾值問題(The Suprathreshold Problem):這屬於精神物理學(psychophysics)中的概念,很多標準是建立在閾值(threshold)的基礎上的,也就是研究剛剛能引起響應的刺激。而當刺激遠遠超過閾值,也就是在閾上(suprathreshold )時,相關研究就很少。但圖像中卻需要考慮這方面。關於閾值和超閾想要了解的可以參考這裡。
- 自然圖像的複雜性問題(The Natural Image Complexity Problem):真實圖片十分複雜,而現有的應用的模式卻很簡單,這是個不得不面對的問題。
- 去除相關性問題(The Decorrelation Problem):在使用之前提到的Minkowski範數進行誤差的計算時,我們其實已經暗自做了一個假設:不同位置上的誤差是獨立的。只有這樣,我們才能把它們累加起來。而事實上,如果我們在之前誤差池化這一步中使用一些線性的分解方法,就沒有去除這種相關性。
- 認知交互問題(The Cognitive Interaction Problem):人類在認知上的特點以及在觀察圖片時的所做的一些交互行為(比如看圖片時眼睛的移動)也會影響人對圖片質量的感受。之前也有研究表明,在觀察圖片時,給的交互方式不同,最終人的評價也不一樣。但這種東西很難去把握,所以多數方法種也就沒有考慮這方面的影響。
推薦閱讀: