【深度分解】聽趣拍雲產品經理剖析視頻基礎知識（1）

03-06

視頻技術發展到現在已經有100多年的歷史，雖然比照相技術歷史時間短，但在過去很長一段時間之內都是最重要的媒體。

由於互聯網在新世紀的崛起，使得傳統的媒體技術有了更好的發展平台，應運而生了新的多媒體技術。而多媒體技術不僅涵蓋了傳統媒體的表達，又增加了交互互動功能，成為了目前最主要的信息工具。

在多媒體技術中，最先獲得發展的是圖片信息技術，由於信息來源更加廣泛，生成速度高生產效率高，加上應用門檻較低，因此一度是互聯網上最有吸引力的內容。

然而隨著技術的不斷進步，視頻技術的製作加工門檻逐漸降低，信息資源的不斷增長，同時由於視頻信息內容更加豐富完整的先天優勢，在近年來已經逐漸成為主流。

那麼我們就對視頻信息技術做一個詳細的介紹。

模擬時代的視頻技術

最早的視頻技術來源於電影，電影技術則來源於照相技術。由於現代互聯網視頻信息技術原理則來源於電視技術，所以這裡只做電視技術的介紹。

世界上第一台電視誕生於1925年，是由英國人約翰貝德發明。同時也是世界上第一套電視拍攝、信號發射和接收系統。而電視技術的原理大概可以理解為信號採集、信號傳輸、圖像還原三個階段。

攝像信號的採集，通過感光器件獲取到光線的強度（早期的電視是黑白的，所以只取亮度信號）。然後每隔30～40毫秒，將所採集到光線的強度信息發送到接收端。而對於信號的還原，也是同步的每隔30～40毫秒，將信號掃描到熒光屏上進行展示。

那麼對於信號的還原，由於熒光屏電視採用的是射線槍將射線打到熒光圖層，來激發熒光顯示，那麼射線槍繪製整幅圖像就需要一段時間。射線槍從屏幕頂端開始一行一行的發出射線，一直到屏幕底端。然後繼續從頂部開始一行一行的發射，來顯示下一幅圖像。但是射線槍掃描速度沒有那麼快，所以每次圖像顯示，要麼只掃單數行，要麼只掃雙數行。然後兩幅圖像疊加，就是完整的一幀畫面。所以電視在早期都是隔行掃描。

那麼信號是怎麼產生的呢？

跟相機感光原理一樣，感光器件是對光敏感的設備，對於進光的強弱可以產生不同的電壓。然後再將這些信號轉換成不同的電流發射到接收端。電視機的掃描槍以不同的電流強度發射到熒光屏上時，熒光粉接收到的射線越強，就會越亮，越弱就會越暗。這樣就產生了黑白信號。

那麼幀和場的概念是什麼？

前面說到，由於攝像採集信號屬於連續拍攝圖像，比如每隔40毫秒截取一張圖像，也就是說每秒會產生25副圖像。而每個圖像就是一幀畫面，所以每秒25副圖像就可以描述為幀率為25FPS（framesper second）。而由於過去電視熒光屏掃描是隔行掃描，每兩次掃描才產生一副圖像，而每次掃描就叫做1場。也就是說每2場掃描生成1幀畫面。所以幀率25FPS時，隔行掃描就是50場每秒。

模擬時代在全世界電視信號標準並不是統一的，電視場的標準有很多，叫做電視信號制式標準。黑白電視的時期制式標準非常多，有A、B、C、D、E、G、H、I、K、K1、L、M、N等，共計13種（我國採用的是D和K制）。到了彩色電視時代，制式簡化成了三種：NTSC、PAL、SECAM，其中NTSC又分為NTSC4.43和NTSC3.58。我國彩色電視採用的是PAL制式中的D制調幅模式，所以也叫PAL-D制式。有興趣的可以百度百科「電視制式」來詳細了解。

另外你可能會發現，場的頻率其實是和交流電的頻率一致的。比如我國的電網交流電的頻率是50Hz，而電視制式PAL-D是50場每秒，也是50Hz。這之間是否有關聯呢？可以告訴你的是，的確有關聯，不過建議大家自己去研究。如果確實不懂的同學可以@我。

彩色信號又是怎麼產生的呢？

其實有了基礎的黑白攝像技術之後，人們就一直想實現彩色攝像。早在1861年，英國物理學家麥克斯韋就論證了所有彩色都可以使用紅、藍、綠三種基色來疊加生成。但是感光器件只是對光線敏感，但是對顏色卻無法識別。為了實現對顏色的識別，人們用分光鏡加濾光片的方式，將光線分解成為三種基色的純色模式。然後分別對三個基色的純色亮度進行採集，然後再把信號疊加實現了對彩色信號的採集能力。

色彩信號是如何表達的？

因為原來黑白電視的時候，基本上只需要一路信號就可以還原圖像（同步信號後面講）。但是有了彩色之後，一路信號能否表達一副完整的彩色圖像，以及如何表達呢？

彩色電視出現之後，為了兼容早期的黑白電視信號（也就是黑白電視機可以接收彩色信號，但是只顯示黑白），科學家引入了YUV色彩表示法。

YUV信號有多種叫法，可以稱作色差信號（Y，R-Y，B-Y），也可以稱作分量信號（YCbCr，或者Component、YPbPr）。它是由一個亮度信號Y （Luminance或Luma），和兩個色度信號U和V組成（Chrominance或Chroma）。黑白電視只使用亮度信號Y，彩色電視可以額外使用兩個色度信號，來實現彩色效果。但是YUV信號是怎麼來的呢？

首先，是因為考慮到黑白電視兼容，所以基礎信號仍然採用亮度信號。而顏色表達本身是通過RGB三基色的疊加來實現的，為了能夠將YUV信號可以還原成三基色RGB色彩值，數學家利用了色差演算法，即選取一路Cr信號和一路Cb信號。Cr信號是指RGB的紅色信號部分與RGB亮度值之間的差異，Cb信號是指RGB的藍色信號與RGB亮度值之間的差異。所以YUV信號有時候也表達為Y，R-Y和B-Y，所以也叫色差信號。

為什麼YUV色彩會延續至今？

如果大家平時經常拿手機拍攝視頻，你可以把拍攝的視頻文件傳輸到電腦上，然後用MediaInfo軟體打開，你會發現很多關於視頻的參數信息。而這些參數信息裡面，你一定會發現手機拍攝的視頻色彩也是使用YUV信號模式。為什麼不用RGB來表達？現在早都沒有黑白電視了啊？

其實不必考慮兼容性的原因，因為你無論是什麼信號模式拍攝的視頻，只要是數字化的信息文件形式，都可以與播放設備的信號模式無關。因為播放設備在播放視頻文件時需要解碼，再進行渲染。這時候不管什麼信號模式還是色彩空間，都能轉化成設備兼容的方式。

至於為什麼YUV信號模式一直會持續至今，最主要的原因不是因為兼容性考慮，而是YUV信號有個巨大的優勢，就是節省帶寬。這在數字媒體領域是很重要的。

人眼的視覺特點是，人眼對於亮度信號最為敏感，對色度信號敏感度要弱一些。所以可以適當減少色度信號的容量，也不會被人眼觀察到差異。就好比音頻裡面的MP3壓縮格式，是將耳朵不敏感的頻率信號容量降低或去除掉，以大大降低文件的大小，但是人耳卻基本聽不到差異。

至於YUV信號是如何做到降低信息容量的，可以看下面的引文：

YUV主要的採樣格式有YCbCr 4:2:0、YCbCr 4:2:2、YCbCr 4:1:1和 YCbCr 4:4:4。其中YCbCr 4:1:1 比較常用，其含義為：每個點保存一個 8bit 的亮度值(也就是Y值)，每 2x2 個點保存一個 Cr 和Cb 值,圖像在肉眼中的感覺不會起太大的變化。所以，原來用 RGB(R，G，B 都是 8bitunsigned) 模型， 1個點需要 8x3=24 bits（如下圖第一個圖），（全採樣後，YUV仍各佔8bit）。按4:1:1採樣後，而現在平均僅需要 8+(8/4)+(8/4)=12bits（4個點，8*4（Y）+8(U)+8(V)=48bits）, 平均每個點佔12bits。這樣就把圖像的數據壓縮了一半。

以上內容引自百度百科「YUV」條目。限於篇幅原因，對於YUV的各種採樣模式不再祥加描述，大家可以參考百度百科中的詳細解釋。如有不懂的同學可以@我。

數字化時代的視頻技術

視頻技術發展到了數字化時代，其實原理上並沒有太多變化。這也就是為什麼前面要提到模擬時代視頻技術的知識的原因。

但是數字化的視頻技術，雖然基礎原理沒有改變，但是各方面的性能和功能有了很大的提升。這些就重點講一下數字化之後的視頻技術有了哪些突破：

彩色攝像的演進

前面講到，實現彩色攝像其實是把光線分解成為三個基色分別取亮度值，但是這種結構比較複雜，成本也高。因為實現彩色攝像需要有一個分光用的稜鏡，然後採集光線必須要用到三片感光器件（CCD或CMOS）。這種結構帶來第二個不好的地方就是結構會比較龐大，不利於小型化微型化。

後來呢，德國人拜耳發明了一種濾鏡，是一種馬賽克濾鏡。將含三基色的馬賽克濾鏡覆蓋在感光器件上面，這樣就可以實現用一片感光器件來採集三種顏色，同時也取消了分光稜鏡這種結構。這樣下來，不僅成本降低了，結構也簡化了。

有了這種技術之後，攝像設備就可以越做越小，現在集成在手機上的攝像頭整體厚度只有2～3毫米，尺寸只有1～3毫米。當然在專業領域，高端的攝像機仍然採用分光稜鏡加3CCD的技術，原因不是他們不願意改，而是3CCD的色彩丰度更好。而且專業攝像機CCD技術也從IT型發展到了FIT型，感興趣的同學可以查看一下SONY公司關於FIT型CCD專業攝像機的介紹來了解。總而言之，就是民用領域和專業領域發展方向不一樣，所以路線也不同。

場概念消失

在模擬電視時代，受限於顯像管技術原因，採用的是隔行掃描技術來還原圖像顯示。但是現在都是平板電視了（液晶電視、等離子電視、激光電視），電視的成像方式不再是一條線一條線的掃描，而是一次性全畫面呈現。所以現在的視頻拍攝一般都沒有場的概念，當然為了向前兼容，在視頻文件信息中，你會看到掃描模式的參數。利用手機拍攝的視頻文件，其掃描模式的參數都是Progressive，就是逐行掃描的意思。

採樣率和採樣精度

大家都知道模擬和數字的最大差別就是信息存儲和傳遞方式，一個是模擬量一個是數字量化的。那麼數字化對於連續過程的量化就必須用到採樣過程，也可以理解為片段化。例如音頻數字化，就是把音頻在每個很小的時間間隔上獲取音頻的信息然後進行數字量化，最後把所有連續採樣的數字量化數據組合，來形成最終的信息。視頻也是這樣，按照一定的時間間隔，把獲取到的圖像進行數字量化，然後連續的數字量化的集合就是一段完整的視頻文件。

但是視頻的採樣率並非是大家理解的那樣，每秒鐘產生25幀的圖像，採樣率就是25Hz。實際上，ITU（International Telecommunications Union，國際電信聯盟）在CCIR 601標準中，對於視頻的採樣標準有了明確的界定：

一、採樣頻率：為了保證信號的同步，採樣頻率必須是電視信號行頻的倍數。CCIR為NTSC、PAL和SECAM制式制定的共同的電視圖像採樣標準：

f s=13.5MHz

這個採樣頻率正好是PAL、SECAM制行頻的864倍，NTSC制行頻的858倍，可以保證採樣時採樣時鐘與行同步信號同步。對於4：2：2的採樣格式，亮度信號用fs頻率採樣，兩個色差信號分別用f s/2=6.75MHz的頻率採樣。由此可推出色度分量的最小採樣率是3.375MHz。

二、解析度：根據採樣頻率，可算出對於PAL和SECAM制式，每一掃描行採樣864個樣本點；對於NTSC制則是858個樣本點。由於電視信號中每一行都包括一定的同步信號和回掃信號，故有效的圖像信號樣本點並沒有那麼多，CCIR 601規定對所有的制，其每一行的有效樣本點數為720點。由於不同的制式其每幀的有效行數不同（PAL和SECAM製為576行，NTSC製為484行），CCIR 定義720×484為高清晰度電視HDTV（High Definition TV）的基本標準。實際計算機顯示數字視頻時，通常採用下表的參數：

三、數據量：CCIR 601規定，每個樣本點都按8位數字化，也即有256個等級。但實際上亮度信號佔220級，色度信號佔225級，其它位作同步、編碼等控制用。如果按f s 的採樣率、4：2：2的格式採樣，則數字視頻的數據量為：

13.5(MHz)×8(bit)+2×6.75(MHz)×8(bit)= 27Mbyte / s同樣可以算出，如果按4：4：4的方式採樣，數字視頻的數據量為每秒40兆位元組！按每秒27兆位元組的數據率計算，一段10秒鐘的數字視頻要佔用270兆位元組的存儲空間。按此數據率，一張680兆位元組容量的光碟只能記錄約25秒的數字視頻數據信息，而且即使當前高倍速的光碟機，其數據傳輸率也遠遠達不到每秒27兆位元組的傳輸要求，視頻數據將無法實時回放。這種未壓縮的數字視頻數據量對於當前的計算機和網路來說無論是存儲或傳輸都是不現實的，因此，在多媒體中應用數字視頻的關鍵問題是數字視頻的壓縮技術。

由上述引文可知，YUV的採樣率和採樣精度，是數字視頻從模擬向數字化過渡中兼容性的解決方案。延續了模擬視頻以行為單位掃描的機制（模擬視頻沒有解析度概念，只有行的概念）。由於這套標準是面向數字電視廣播系統制定的統一標準，一般只在廣播電視領域中才會看到，而在其他的數字化視頻體系中基本沒有體現。比如你在視頻文件信息中找不到關於採樣率的參數。

視頻解析度

視頻解析度也是數字化視頻時代的主要特徵，由於模擬視頻採用線掃描機制，也就是按行顯示圖像，而每一行的視頻線中並沒有進行數字量化，所以模擬視頻都是以多少行來界定的。比如PAL制式採用576行，NTSC制式採用480行。

到了數字化時代，為了量化視頻的具體信息，就必須對每行的信息進行採樣並量化，就形成了解析度的概念。如果採用PAL制式的視頻，每行量化的圖像點為768個，那麼解析度就是768×576。也就是說把PAL制的視頻圖像可以分解為768×576個像素點組成。

雖然簡單的看視頻解析度的概念挺簡單的，但實際上並沒有那麼簡單。原因就是數字化視頻的應用領域非常的多，從最早的廣播電視應用，到監控安防，到互聯網應用，後來又到了高清數字電視，以及移動互聯網等等。而因為涉及的行業很多，每個行業都會制定自己的標準，所以就形成了對視頻圖像解析度的定義有了很多標準。我們就拿最常見的廣播電視、監控安防為例：

大家在計算機領域也都有接觸過解析度的概念，比如VGA（640×480）、SVGA（800×600）、XGA（1024×768）、SXGA（1280×1024）、SXGA+（1400×1050）、UXGA（1600×1200）、WXGA（1280×800）、WXGA+（1280×854/1440×900）、WSXGA（1600×1024）、WSXGA+（1680×1050）、WUXGA（1920×1200）等等。現在最高的標準是WQUXGA（3840×2400）。這個標準最早是由IBM制定的模擬信號的電腦顯示標準，後來被各廠家繼續沿用和升級。再後來被VESA標準化組織統一制定。

但是為什麼解析度就不能是簡單的數字，非要在前面弄一堆字母呢？這一堆字母絕對能把一大群人搞暈掉。

原因在於制定一個輸出的解析度，並不是簡單的設置有多少個像素點，而是還要考慮到實現這個像素點成像的方法。包括色階多少、帶寬多大、掃描方式怎樣，如果深入的講還有電路形式、增益控制、時序方式、定址方式等等。如果沒有詳細制定這些圖像是如何生成的，那麼各個廠家之間的產品可能很難兼容，也就不會見到今天如此發達的計算機市場了。

同樣的道理，制定標準化的解析度和實現方式，有助於行業的統一和兼容。

監控安防領域有什麼解析度標準呢？下面請看：

這裡解釋一下，CIF是 Common Intermediate Format 的縮寫，即通用影像傳輸視頻會議（video conference）中常使用的影像傳輸格式，是ITU H.261協議中的一部分。大家可能發現了，每個解析度的色度取樣個數和行數都是對應解析度的一半。沒錯，因為這個標準因為考慮到攝像頭的性能和傳輸的性能影響，採取的是間隔像素採樣和隔行掃描機制，而間隔像素採樣通過插值進行補齊。

不過這些參數貌似現在很難見到了，為什麼呢？很簡單，因為監控安防現在都是高清化了，都是D2、D3這種級別的，對應解析度是720P和1080P這一類。

那麼在廣播電視領域，對於解析度的定義又是怎樣呢？

前面已經提到了關於PAL制和NTSC制式的視頻解析度標準，另外還有一個SECAM制式，SECAM的解析度為720×576。那麼你會發現SECAM制式和PAL制的行數是一樣的，只有每行的解析度不同。這是由於SECAM調製載波方式不同造成的。

在標清電視時代，對於解析度方面理解與現在其實有所不同。比如SECAM制式每幀圖像是625行，但是解析度是720×576，也就是只有576行。是因為視頻信號傳輸過程中分幀正程和幀逆程，而幀逆程就是回掃，反向回去。在視頻信號正常顯示時，需要消除行幀逆程掃描對畫面的干擾，所以就變成了576行。

到了高清時代，數字電視推出了HDTV標準，它對於顯示解析度的定義為1280×720逐行掃描，也就是俗稱的720P；1920×1080隔行掃描，也就是俗稱的1080i；1920×1080逐行掃描，也就是所謂的1080P。

當然高清數字電視已經逐漸普及了，目前正在面向4K高清過渡，也就是所謂的UHDTV（UltraHigh Definition Television，超高清數字電視）。UHDTV草案定義了兩個解析度標準，及4K（3840×2160）和8K（7680×4320），支持50Hz、60Hz、和59.94Hz三種幀率，只採用逐行掃描。UHDTV採用正交採樣，像素縱橫比（PAR）為1:1，顯示縱橫比（DAR）為16:9。

關於像素縱橫比和顯示縱橫比的概念，相對比較簡單，這裡就不做解釋了。如果不清楚的可以搜索一下，當然同樣也可以@我。

關於信號同步

信號同步是在廣播電視領域中非常重要的技術，因為它如果出現問題，你的電視畫面一定是沒法看的，比如下面這種情況：