背景及基本概念介紹

05-10

一. 背景介紹

HDR（高動態範圍成像），在計算機圖形學與電影攝影技術中，是用來實現比普通數字圖像技術更大曝光動態範圍（即更大的明暗差別）的一組技術[1]。也就是說相比較於LDR（低動態範圍）圖像，HDR圖像中像素值可以表示更大範圍的顏色、亮度等級。

作為下一代高清電視標準的重要組成部分，關於HDR的研究正在如火如荼的開展。本文將基於HDR成像技術的流水線對HDR整個領域進行介紹。

二. HDR基本概念

所有的顯示成像技術都是為了能夠使人眼觀看顯示的圖像能更加接近於實際場景，所以有必要先簡單了解人眼對光線的感知原理。

2.1 可見光與人眼感知原理

可見光是空間中輻射能的一種形式，在空間中的傳播根據介質的不同主要有透射，吸收和反射三種相互作用的方式。透射是指入射光會穿過介質，並根據介質屬性不同改變傳播方向。吸收是指光線擊中介質後，被介質吸取，能量形式轉換為熱能。反射又分為漫反射和鏡面反射。鏡面反射指入射光線根據介質屬性不同沿特定方向反射；漫反射指在理想情況下入射光會以相同的能量被反射到各個方向。光線的三種傳播方式如圖2.1所示，

圖2.1 光線的傳播形式

不同波長的光線到達人眼後，刺激人眼以獲得不同的視覺感知。可見光的波長主要集中在400nm到700nm之間，其頻譜圖如圖2.2所示。

圖2.2光線的波長與其頻譜圖

2.1.2 人眼感知原理

眼睛是人類的感光器官，光線首先通過角膜進入瞳孔，隨後透過晶狀體，折射到達位於視網膜的感光組織，感光組織將受到光線刺激後產生信號，接著生成的的信號再通過感光神經傳遞到視覺皮層，視覺皮層依據這些信號產生圖像信息。整個系統被稱為HVS（人類視覺系統）[2]。

眼球中有兩種液體，一種是玻璃體，它充滿著眼球內部以維持眼球形狀，並使視網膜與內壁分離。另一種是房水，在角膜和晶狀體之間主要為了維持眼壓。人眼的具體結構如圖2.3所示。

圖2.3 人眼的內部結構

另外，人眼中感光細胞也主要有兩種，一種是視錐細胞，一種是視桿細胞。

在中心凹處大約有七百萬個視錐細胞。視錐細胞對10^-2—10^8 cd/m^2（明亮的環境）等級的光線更為敏感，負責感知快速運動和高頻信息。進一步細分，視錐細胞可以分為：短波視錐細胞，對435nm左右的光線最為敏感；中波視錐細胞，對530nm左右的光線最為敏感；長波視錐細胞，對580nm左右的光線最為敏感。

視桿細胞大約有七千五百萬到一億五千萬個。視桿細胞主要對10^-6—10 cd/m^2的光線（較暗的環境）比較敏感，但是視桿細胞無法提供顏色信息，這也就是為什麼在低照度環境下我們難以區分物體的顏色。視錐細胞和視桿細胞會對原始光線動態範圍進行壓縮以縮小動態範圍，壓縮規則如下式所示：

其中R代表感光細胞的響應，Rmax是最大的響應，I代表光線強度，變數σ和n分別是半飽和常數和靈敏度控制指數，對於視錐細胞和視桿細胞是不同的。

2.2 動態範圍與最小可辨別差異（JND）

2.2.1 動態範圍

動態範圍是指某度量的最大和最小值之間的比值。對於圖像而言，亮度等級就是所需評價的度量，根據實際應用的不同有以下幾種動態範圍的測量。如表2.1所示。

表2.1 不同動態範圍的描述

雖然描述方式根據不同的應用場景有所不一樣，但形式上基本一致，都是各種場景下像素值最大值與最小值之間的比值及其變形。

對比度（contrast ratio）是用於顯示系統的度量，定義為設備所能產生最亮顏色和最暗顏色的亮度的比值。由於HDR顯示設備無法產生亮度等級為零的光線，所以將設備能產生零之後的第一個亮度等級定義為最暗[3]。對比度也是動態範圍中最常用的一個概念，提升對比度是HDR技術研究的主要目的之一。

對數域曝光範圍（log exposure range）是HDR技術中常用於測量場景動態範圍的度量。這裡主要考慮的是給定場景中的最亮和最暗亮度，亮度的計算是在對數域下進行的。使用對數值的優點是，它們能夠更好地描述動態範圍中感知的差異。

信噪比（SNR）用於描述數碼相機的動態範圍。它利用使圖像感測器恰好飽和的信號強度Ypeak和恰好使圖像感測器能夠感知的信號強度Ynoise來進行定義。單位是dB。

可感知動態範圍是描述人眼可感知動態範圍的度量。目前這一概念還存在一些爭議。一般而言，如2.1.2節介紹，投射到視網膜的光線會被壓縮，壓縮後，光線亮度大約為2-3個log-10單位，但由於人眼的高度敏感一般認為人眼可以感受4倍以上log-10單位的光線強度。根據[4,5,6]等研究可以知道人眼更喜歡觀看HDR設備所顯示的對比度在1000:1的內容，這說明人眼可以感受到很高的動態範圍，並且更傾向於高動態範圍。所以更高動態範圍的設備和媒體資源是提升觀看體驗必須要解決的問題。圖2.4給出了目前常用設備所能顯示的動態範圍和真實場景的實際亮度範圍。

圖2.4 真實場景亮度範圍和設備所能顯示的亮度範圍[4]

2.2.2 最小可辨別差異(JND)

正如前面章節所介紹的，人眼對於光線的感知並不是線性的，另外，實際上，將現有的LDR圖像處理演算法適配到HDR圖像的最簡單的方法是對HDR圖像像素的對數值進行操作。所以本節介紹相對對比度變化的敏感度與對數函數的關係，進而介紹最小可覺差（JND）。

在視覺研究中亮度對比度一般如下式定義：

其中△L表示由於刺激造成的亮度變化，L表示背景亮度，一般可以取L的平均值。之所以這樣定義是因為一百年前心理學實驗發現刺激物的增量與原來刺激物之比是一個常數，如下式所示：

這就是韋伯定律，其中常數k被稱為韋伯係數。這個是標準定義，可能有點費解。打個比方，一瓶水原本價格2元，漲價2元那就會覺得貴了很多；而一台電腦原價5000元，漲價2元，你不會有太大感覺，但是如果漲價5000元，你就會有和水漲價2元一樣的感覺。韋伯定律要表達的就是能給人帶來的心理上感覺差異的刺激物增量的閾值是與刺激物的原值成正比的。基於韋伯定律，我們希望構建一個函數R(L)用於近似描述人眼對光線的響應，我們假設可以恰好被人眼分辨的兩個亮度等級之間差異是單位一，如下式所示：

這個等式將響應函數R(L)歸一化為一個JND單位。一個JND單位等同於有75%概率發現兩個亮度等級之間的不同。經過歸一化，在響應空間R中加減1將會帶來一個最小可分辨差異(JND)。響應空間R可以通過迭代的方式導出，如下式所示：

將韋伯定律帶入得，

從另一個方面來推導，R(L)斜率是1/△L，寫成微分形式，

通過積分，

結合韋伯定律，可得到，

k1是一個任意常數，表示R(L)的偏移，一般通過k1使得R(Lmin) = 0。從上式中可以看出，當L增加△L時，R(L)變化是相同的。

2.2.3 低動態範圍與高動態範圍的圖像對比

儘管近年來數字圖像的採集和顯示技術有了長足進步但是離真實場景還有很大的距離。根本原因就在於數字圖像在空間域和時間域上的離散化與現實世界的連續性之間的巨大差異。就技術層面而言，目前限制超高清電視(UHD)發展並不是解析度而是色域限制和不完美的壓縮格式造成的對比度和亮度的損失。比如，由相機採集的RAW格式圖像，由JPEG編碼成8位整數像素值後，會造成不可恢復的損失，只能表示真實世界中一小部分的色域和亮度。為了說明這種成像技術的局限性，通常將其稱為低動態範圍(LDR)。

高動態範圍成像(HDR)通過增加像素色差精度來克服這些限制，以便能夠表示真實世界中可以被人眼察覺的所有顏色。為了適當地增強色彩鮮艷度，數字圖像必須保存關於原始場景的實際亮度水平的信息，這在傳統成像的情況下是不可能的。真實世界的場景不僅比數字圖像中的更明亮，更豐富多彩，而且還包含更高的對比度，包括相鄰對象之間的局部對象，以及遠處對象之間的全局對比度。與HDR相比，LDR不能描述如此高的對比度的場景。此外，一些常見的視覺現象LDR也無法表示，如光源的表面（陽光，閃亮的燈光）和明亮的鏡面高光區域；也沒有足夠的信息來再現視覺眩光（周圍閃光物體的變亮）和由於場景的亮度突然增加（例如，在室內暴露在陽光下時）而造成的短時間的炫目。因此，要高還原度地表現，存儲和再現所有這些效果，必須使用高保真HDR技術存儲和處理原始場景。HDR與LDR一些具體的差異如圖2.5所示，

圖2.5 LDR與HDR之間的差異對比[4]

2.3 伽馬修正與顯示模型

2.3.1 伽馬修正

大多數低動態範圍的圖像和視頻格式都會使用伽馬修正將亮度或RGB光譜顏色強度轉換為整數，以方便編碼[4]。

伽馬修正通常以指數形式給出，

intensity = signal^γ

其中intensity表示原始的亮度或光譜強度，signal表示修正後的信號強度。γ的取值在1.8到2.8之間。伽馬修正一開始是為了減少相機雜訊並且適應當時的CRT顯示器的水平，但是之後發現，經過伽馬修正後顯示器所顯示的信息能線性近似於真實場景的信息，這是一個令人驚喜的巧合。因為CRT顯示器的輸入電平和顯示值之間也存在一個指數關係，而像素的編碼值決定了輸入電平值的大小。進一步分析後，我們可以使用兩個不同伽馬值定義的轉換函數(transfer function)來描述整個顯示系統。編碼伽馬值(encoding gamma)定義了編碼轉換函數，用於描述設備採集的場景輻射值與像素編碼值之間的關係。另一個是顯示伽馬值(display gamma)，定義了顯示轉換函數，用於描述輸入的編碼像素值與顯示設備顯示光譜值之間的關係。兩個轉換函數的乘積得到的全局伽馬值(overall gamma)或端到端伽馬值(end-to-end gamma)可以很好描述整個顯示系統，如圖2.6所示。

圖2.6 兩種轉換函數結合描述整個顯示系統

如果全局伽馬值為1，那麼顯示的輻射值與實際場景的輻射值是一種很好的線性關係，這看起來很理想，但是用顯示設備和實際場景的觀看條件是不一樣的。主要存在兩個問題，一是由於顯示技術限制，顯示設備能顯示輻射值的數量比實際場景存在的輻射值數量低了很多個數量級，無法完全描述；二是，存在所謂的環繞效應(surround effect)，在實際場景中光線來自整個場景，而在觀看顯示設備的成像時，光線集中來自於顯示設備，並且會受到環境光的極大影響，比如，在辦公室環境光很亮，在電影院環境光很暗。

基於上述兩個原因，全局伽馬值一般不設為單位一，根據不同的設備和使用條件不同而不一樣，比如在影院中一般設為1.5，在辦公室中一般設為1.125[6]，以此來保證顯示輻射值與真實場景輻射值的近似關係。

2.3.2顯示模型

2.3.1中介紹的顯示伽馬修正，只是顯示模型的簡化，為了進一步定量分析，就需要介紹完整的顯示模型，伽馬偏移增益(gamma-offset-gain,

GOG)。GOG模型更準確地描述了輸入的像素值與顯示的值之間的關係。下式給出了在灰度圖情況下像素的亮度值與顯示亮度之間的關係，、

L是顯示亮度，V是像素值亮度。Lpeak是顯示設備在完全黑暗環境中的亮度峰值，Lbalck是顯示設備所能發出的最暗光線的亮度，Lrefl表示從顯示設備表面反射的環境光值。Lrefl的定義如下式所示，

k表示顯示設備的反射率，Eamb表示環境光的亮度。

2.4 顏色空間

顏色空間是用數學描述來定義顏色的一種方式，一般由被稱為三原色的三個分量表示。主要分為兩類：設備相關（device dependent）和設備無關（device independent），前者描述了與顯示設備用於顯示顏色的技術有關的顏色信息。比如，電腦顯示器依賴於熒光劑來顯色，噴墨印表機依賴於墨水顯色。這種描述的特點是對於同一坐標值的顏色，在不同的顯示設備上顯示效果是不一樣的。設備無關的顏色空間並不依賴於特定的顯示設備的性質。典型的設備相關的顏色空間是RGB顏色空間，RGB顏色空間是由三原色,R，G，B構成的笛卡爾立方體。

典型的設備無關的顏色空間是CIE 1931 XYZ顏色空間，主要由頻譜能量分布I在對應的color-matching函數上各分量的投影定義，

其中λ 代表波長。具體的color matching函數如圖2.7所示。

圖2.7 color-matching函數對應的函數曲線

將Y分量作為亮度保留，並按下式定義色度分量

這些值在圖2.9中被畫出，形成所謂的CIE xy色度圖，它能描述HVS所能感知的所有顏色。目前在CRT和LCD顯示其中最常用的是sRGB顏色空間，它所採用三原色R(紅)，G(綠)，B(藍)的是ITU-R的提案BT.709中為高清電視定義的三原色。

圖2.8 CIE xy色度圖

在sRGB空間中每種顏色都是三原色的線性相加，並且權重都是[0, 1]，所以sRGB只能表示xy色度圖中的部分顏色，如圖2.8中虛線三角形所示。在XYZ和RGB之間存在下列的關係。

其中M矩陣定義如下，

近年來隨著顯示技術的發展，已經有很多設備可以顯示更多的顏色，所在ITU-R提案BT.2020中提出一種比sRGB色域更廣的顏色空間BT.2020，如圖2.9中實線三角形所示。其M矩陣定義如下：