AR基礎研究

01-29

首先，簡單闡述AR的概念和起源。

其次，基於輸入端和輸出端，重點闡述AR的技術原理以及光場顯示技術。

再者，結合VR，闡述裸手交互有望成為AR的核心交互之一。

最後，通過PC和智能手機的發展曲線，闡述AR的發展曲線。同時，對AR產業鏈的核心組成部分也作了一定的梳理。

一、AR概念與特點

1、定義

根據百度百科的定義，AR指的是一種實時地計算攝影機影像的位置及角度並加上相應圖像、視頻、3D模型的技術，這種技術的目標是在屏幕上把虛擬世界疊加在現實世界上，並且可以實時互動。

這種技術最早應用於1961年，在美國空軍阿姆斯特朗實驗室中，路易斯·羅森伯格開發出了Virtual Fixtures，其功能可以實現對機器的遠程操作。其後，羅森伯格將其研究方向轉至增強現實，即如何將虛擬圖像疊加到用戶的真實世界中。但AR概念正式成型要歸功于波音公司的研究員Tom Caudell。1991年時，Tom Caudell 試圖尋找一種能幫助航空公司的飛機製造過程更容易的系統。而最終的解決方案，正是如今的增強現實的雛形，其將特定纜線的走線位置疊加在現實生產場景中。因此，工程師們就不需要再通過抽象的工程圖來定位走線位置了。

不管是從最早應用，還是從概念來源，AR都起源於工業製造，這一點與注重娛樂的VR有很大區別。

2、AR特點

結合AR的概念、起源以及當前為數不多的應用，AR主要有以下三個特點：

第一、融合虛擬和現實。與VR不同，AR不會把使用者與真實世界隔開，而是將計算機生成的虛擬信息疊加到現實場景中，以實現對現實場景更加直觀和深入的理解。增強的信息包含兩大類：a疊加在真實物體上的非幾何信息，如文字、圖片、視頻等；b完全虛擬的幾何信息，如三維物體、場景等。

第二、實時交互。藉助於AR設備，用戶以更加自然的方式與增強現實環境進行交互，這種交互必須要滿足實時性。目前，這些交互方式主要包括手勢、語音等。

第三、三維註冊。所謂註冊，可以分解為識別和定位，指的是將計算機產生的虛擬物體與真實環境進行無縫對接，且用戶在真實環境中運動時，也將繼續維持正確的對準關係。

二、技術原理

整個AR是一個很複雜的系統，在剖析其技術原理時，我們將其分為輸入端和輸出端，中間的虛實融合，均體現在輸入和輸出環節，這裡就不再單獨敘述。

輸入端

對AR系統的輸入端來說，首先，要解決「是什麼」的問題，也就是要知道和理解場景中存在什麼樣的對象和目標，這個是識別問題；其次，要解決「在哪裡」的問題，也就是要對場景結構進行分析，實現跟蹤定位和場景重構，這個是跟蹤定位問題。

1、識別技術

第一、分類角度。通過演算法訓練得到某一類對象的一般性特徵，從而生成數據模型，它的目標不是具體的個體，而是一類對象，如汽車、人臉等。由於其是語義上的檢測和識別，所以並不存在精確的幾何關係。在應用場景上，更適用於強調增強輔助信息，而不是強調具體位置。

第二、匹配角度。這種識別技術的前提是資料庫中保存了圖像的特徵以及對應的標註信息，在實際使用過程中，通過圖像匹配的方法找到最相關的圖像，從而定位環境中的目標，進一步得到識別圖像和目標圖像的精確位置。在應用場景上，適用於需要對環境進行精確跟蹤。

最終在應用層面，以上兩種識別方案會交叉使用。但就目前而言，識別技術仍有其難點，主要包括兩方面：

第一、每一類對象都有其獨有的特徵，不同特徵的提取和處理需要實現一一對應，這對識別檢測來說，是一個巨大的挑戰。

第二、圖像本身還受到光照、雜訊、尺度、旋轉、姿態等因素的影響，會影響其準確度。

不過隨著機器學習、處理器的提升，這些難點也終將漸漸被攻克。

2、跟蹤定位技術

（1）基於硬體

基於硬體設備的三維跟蹤定位方法在實現跟蹤定位的過程中使用了一些特殊的測量儀器或設備。常用的設備包括機械式跟蹤器、電磁式跟蹤器、超聲波跟蹤器、慣性跟蹤器以及光學跟蹤等。光學跟蹤和慣性跟蹤是比較常用的兩種硬體跟蹤方式，HTC Vive就是採用了光學跟蹤和慣性跟蹤兩種硬體來定位頭部的位置。使用硬體設備構成的跟蹤系統大多是開環系統，跟蹤精確取決於硬體設備自身的性能，其演算法的擴展性要差一些，且成本相對較高。

（2）基於視覺

視覺跟蹤方法具備更強的擴展性，其系統多為閉環系統，更依賴於優化演算法來解決跟蹤精度問題。相比於上述基於硬體設備的跟蹤方法，計算機視覺跟蹤方法提供了一種非接觸式的、精確的、低成本的解決方法。根據數據生成的方式，視覺定位的演算法又可分為兩種：

第一、基於模板匹配的方式。預先對需要跟蹤的目標進行訓練，在跟蹤時通過不斷的跟預存訓練數據進行對比，計算當前的位姿。這類方法的好處是速度較快、數據量小、系統簡單，適用於一些特定的場景，但不適用於大範圍的場景。

第二、SLAM方法，即即時定位和地圖構建技術。SLAM不需要預存場景信息，而是在運行階段完成對於場景的構建和跟蹤。其優點是不需要預存場景，可以跟蹤較大範圍，適用面廣，在跟蹤的同時也可以完成對於場景結構的重建。但目前這類技術計算速度慢、數據量大、演算法複雜度高，對於系統的要求也較高。例子：Hololens、Magic Leap。

基於視覺的方法，受限於圖像本身，雜訊、尺度、旋轉、光照、姿態變化等因素，會對跟蹤精度造成較大的影響，因此為了更好地處理這些影響因素，研發魯棒性強的演算法就成為下一步AR技術的研究重點。

為了彌補不同跟蹤技術的缺點，當前均採用硬體和視覺混合跟蹤的方法來取長補短，以滿足AR高精度跟蹤定位的要求。

輸出端

1、 透射式頭盔顯示

根據真實環境的表現形式劃分，主要有視頻透視式和光學透視式。

（1）視頻透射式：基於視覺

首先，通過頭盔上的微型攝像頭，獲取外部真實環境的圖像；其次，計算機通過場景理解和分析將所要添加的信息和圖像信號疊加在攝像機的視頻信號上，將計算機生成的虛擬場景與真實場景進行融合；最後，通過一個顯示系統呈現給用戶。目前，大多數手機AR用的就是這一原理。

視頻透射式的好處在於可實現、成本較低，適用於一些小的場景，比如卡片識別等。但如果應用在大的、複雜的場景，攝像頭方案有兩個致命弱點：a真實環境的數據來自攝像頭，會造成顯示解析度較低的情況；b如果攝像頭與用戶視點不能完全重合，用戶看到的虛擬信息與真實信息會存在偏差，這樣會影響體驗，尤其在某些領域，如工業、軍事等領域，會出現安全隱患。

（2）光學透射式：基於光學

通過安裝在眼前的一對半反半透鏡，融合呈現出真實場景和虛擬場景。與視頻透射式不同，光學透視式的「實」來自於真實的光源，經過透視光學系統直接進入眼睛，計算機生成的「虛」則經過光學系統放大後反射進入眼睛，最後真實信息和虛擬信息匯聚到視網膜上，從而形成虛實融合的成像效果。

光學透射式的優點在於結構相對簡單，解析度更高，因其能夠直接看到外部，真實感和安全性也更強。但其缺點是：在室外強光條件下顯示效果會受到影響。目前Hololens和亮風台的HiAR Glasses都採用這種方案。

不管是視頻透射式，還是光學透射式，用戶看到的虛擬信息都是2D的或者是偽3D，其質量與直接用肉眼看真實世界還是差一截，而且視頻從採集到顯示總有延遲。但受限於當前的技術手段，在產品層面只能選用這種方案，真正可以讓用戶體驗到「現實級」的AR是光場顯示。

2、 光場顯示

在闡述光場顯示之前，我們首先說一下光場的概念。根據百度百科的定義，光場指的是光在每一個方向通過每一個點的光量，自由空間中某一點沿著一定方向的光線輻射度值，該空間所有的有向光線集就構成了光場資料庫。通俗點來說，光場指的是空間內所有光線信息的總和，包括光的顏色、亮度、方向、距離等。

因此，光場顯示技術最關鍵的地方就在於：除了可以像普通屏幕那樣顯示基本的圖像信息外，還能顯示景深信息。這樣，就可以避免視覺系統的失衡，一定程度降低噁心、眩暈等不適癥狀。通過光場顯示，用戶可以真正感受到物體間的相對距離，比如，看遠處的物體時，近處的物體會因為眼球失焦而模糊，看近處的物體時，遠景也會被虛化，從而更接近人眼本身的視覺體驗。

在具體方案上，分為兩種：空間復用（Space Multiplexing）和時間復用（Time Multiplexing）

（1）空間復用

所謂空間復用，就是把一個像素當幾個像素用，來實現不同的聚焦距離。具體又細分為光場立體視鏡和微透鏡陣列。

第一、光場立體透鏡。將多塊屏幕按照一定的距離堆疊在一起，通過不同的屏幕顯示不同距離的內容，比如近處的內容用離眼睛最近的屏幕顯示，最遠的內容則用最後一塊屏幕顯示，當所有屏幕的畫面重疊在一起便構成了一副完整的畫面，從而產生一定的景深信息。通過多層屏幕顯示不同的景深畫面，雖然並未能如現實一樣達到最真實的觀看體驗，但相對只有一塊屏幕來說，確實能大大提高體驗，而且能一定程度保持視覺系統的平衡，降低暈動症產生。

第二、微透鏡陣列。與光場立體視鏡採用多層屏幕堆疊的方案相比，微透鏡陣列則如通字面意思一樣，採用微小的透鏡陣列來顯示畫面，每個小透鏡底部都會有一個小小的顯示器來顯示畫面的部分內容。這種技術將影像分解成為數十組不同的視角陣列，然後再通過微透鏡陣列組合重新將畫面還原顯示，最終在一副畫面中，不同距離的內容會被對應的透鏡產生出對應的景深圖像。當用戶觀看畫面中不同的「點」時，感受到的「距離」也會不一樣，以此來接近更現實的視覺體驗。

儘管以上兩種方案都可以賦予用戶相對真實的視覺體驗，但也有其一定的缺點。對光場立體透鏡來說，通過多層屏幕的堆疊，如果想要增加更多的景深信息，鏡片對越來越厚，不利於「薄」的產品趨勢；對微透鏡陣列來說，採用「多個微顯示屏+微透鏡陣列」的方式來顯示畫面，會對屏幕解析度造成一定的衰減，畫面會很模糊。為了更接近現實觀看體驗，微透鏡陣列密度要足夠大，同時又要滿足高解析度。這對工藝來說，就是一個很大的挑戰。

（2）時間復用

所謂時間復用，就是用高速原件來快速產生不同的聚焦距離，讓人眼以為它們是同時產生的，這樣解析度不會損失。我們都知道，人眼的速度感知是有限的，很多顯示器都是60Hz的，因為人眼能分辨的極限值一般就是60Hz。這意味，如果利用360Hz的高速顯示器，就可以實現6個不同的聚焦距離。而有研究表明，用6個聚焦距離加上一種線性混合的渲染演算法，基本可以實現「從約30厘米到無窮遠」的人眼自然對焦範圍。Magic Leap採用的就是這種時間復用的方案，即所謂的「高速激光光纖掃描」。

因此，我們看，從理論上講，基於時間復用的高速激光光線掃描的顯示是可行的。但在實際應用中，受限於計算能力、3D註冊能力、外部光源的影響、工藝問題、設備小型化等問題、目前這種技術還處於研究階段。

三、交互部分

儘管目前在軟體和硬體上，AR交互還沒有形成標準。但基於人機交互自然性的趨勢以及市場上業已存在的產品，我們試圖探討AR交互的可能性。

從長期來看，AR和VR在交互上是互通的。但就目前而言，二者都處於一個關於交互方式的拓荒期：操作界面正從二維平面轉移到三維空間，但還沒有形成一個標準，這種標準就像PC時代的「滑鼠+鍵盤」和智能手機時代的「多點觸控」。

1、交互範疇

基於這樣一個背景條件，目前已存在的或者可能存在的交互範疇主要包括以下幾個維度：

第一、由人主動發起的交互，偏向於控制，如手勢交互、體感交互、語音交互等。這類交互發出的都是確定性的指令性信息，旨在正確地觸達某些特定的目的，但也會耗費最多的精力和體力。

第二、由機器主動發起的交互，偏向於識別，如眼球跟蹤、頭部位置跟蹤、表情識別等，這類交互是機器通過感知使用者的狀態來進行交互的，在很多時候，使用者不需要耗費太多精力。

第三、機器對環境的感知交互，如三維重建、情景感知、物體分割識別等。這一點主要適應於AR。在AR中，只有先做好對外在環境的感知，人與機器之間的交互才能順暢。

2、交互原則

結合人的自然交互以及之前成功的交互方式，我們認為，一個好的交互方式需滿足以下三點：

第一、具備確定性的反饋。這一點是交互的核心，確定性的反饋比什麼都重要。試想一下，如果我們點擊滑鼠，但滑鼠有什麼動，有什麼不動，會嚴重影響用戶的使用預期的。

第二、低耗能。這一點決定該類交互方式是否可以長期、高頻被使用，太費體力和精力的交互，一定不是主流交互。比如，同樣是遊戲，用戶坐在PC前，可以玩一整天，但通過目前的VR設備來玩，就比較耗體力。還有Kinect，它只能玩一兩個小時，很難玩一天。

第三、操作簡單。好的交互方式，一定都不複雜，或者說，對目標用戶來說是這樣的。這一點從PC到智能手機、iPad特別明顯，三歲小孩可以玩iPad，但很難玩PC。

在以上三個原則中，如果我們對其進行排序，確定性的反饋永遠是第一位，有時候我們甚至可以犧牲第三個、甚至是第二個原則，來達到確定性反饋的目的。尤其是操作簡單這一條，任何交互方式，主要學一下，一般人都會了。但如果不能具備一個穩定的預期，操作再簡單、再省力也沒用。

基於以上的交互範疇和交互原則，我們認為，AR的交互很有可能是以手勢為主，語音為輔。語音業已存在，且對場景要求較高，這裡我們不做分析。以下，我們將重點介紹手勢交互。

3、 手勢交互

從形而上學的角度來看，人類大多數的交互方式都跟手有關，無論是汽車，還是手機，最終都需要手來操作。或者說，大多數的工具都是為手賦能的，手是元工具。基於賦能，完成手的延伸，AR/VR也不例外。關於手的應用，可分為裸手交互和非裸手交互。

（1）非裸手交互：基於硬體

所謂非裸手交互，就是藉助某種介質去做手勢交互。目前來看，VR比AR更適合非裸手交互，從現在的VR終端中也可以看出，不管是HTC Vive，還是Oculus，在核心交互上，都帶有手柄。原因有以下幾點：

首先，是基於確定性的反饋這一原則。在目前的技術條件下，基於硬體的反饋確定性較高。雖然拿著硬體去交互，多有不便，但為了確定性，不管是用戶，還是廠家，都是可以犧牲方便性的。

其次，是基於體驗場景。VR的核心訴求是沉浸感，在體驗場景上，需滿足以下兩個點：a用戶的時間是塊狀的，而不是碎片的；b體驗的環境是固定的，而不是移動的。所以，用戶在體驗VR時，一般只有家庭和辦公室兩個場景較為符合，線下體驗店算半個場景。在時間上，一天之內也只有1-2小時比較合理，這一點比當時的PC有點類型（除去PC的辦公時間）。基於環境固定、時間塊狀，通過手柄來體驗，並不會對用戶的便捷性造成多大折損。而在AR中，AR的核心訴求是虛實之間的實時交互，在體驗場景上，時間是碎片的，環境是移動的，隨時帶一個手柄之類的東西，會很麻煩。

再者，在VR體驗中，也涉及到一些力反饋的交互。比如我們在開槍時，如果沒有類似扣扳機的動作，會顯得很假。我們在砍殺的時候，也需要一些震動來增強體驗。類似於這些場景的力反饋，都需要某個介質來傳導到人的感知上。

結合以上，我們來看非裸手交互的優劣勢。優勢在於：確定性高、在某些場景下提供特殊的反饋等；劣勢在於：便攜性差，有一定的學習成本、不適合移動場景等。

儘管目前這種介質仍停留在手柄上，最終在產品形態上有可能進化到數據手套、數據衣等便捷性更高、確定性更高的形態上，當然這個也取決於性能、成本和功耗等這些因素了。但毫無疑問，這是個趨勢。

（2）裸手交互：基於視覺

所謂裸手交互，就是不藉助任何介質，手直接進行交互，也就是我們經常說的手勢識別。根據上文，我們認為，AR更需要也更適合手勢識別。具體原因，與上文分析VR的框架類似，包括環境、時間、便捷性等因素，這裡便不再贅述。目前需要考量的就是「確定性的反饋」這一條，這個主要涉及到當前手勢識別的技術。以下，我們將對手勢識別的技術進行闡述。

從簡單粗略到複雜精細，手勢識別大致分為三個等級：二維手型識別、二維手勢識別和三維手勢識別。從二維到三維，增加了一個「景深」信息，對眼睛來說，就是「遠度」。通過視覺，人眼可以區別物體的遠近。

na、二維手型識別

也稱為靜態二維手勢識別，它是手勢中最簡單的一類。這種技術在獲取二維信息之後，可以識別幾個靜態的手勢，比如握拳、五指張開等。「靜態」是二維手型識別的重要特徵，只能識別到手勢靜止的狀態，不能感知手勢的「持續變化」。因此，從本質上講，它是一種模式匹配技術，通過視覺演算法分析圖像，與預存的圖像模式進行匹配，從而理解手勢的含義，原理與二維碼掃描類似。它的優點在於簡單、計算量小、確定性高，但缺點也十分明顯：只能識別預設好的狀態，拓展性差，控制感弱，只能實現最基礎的人機交互功能。

b、二維手勢識別

顧名思義，儘管它還是二維的，但它具備了動態的特徵，可以追蹤手勢的運動，進而識別將手勢和手部運動結合在一起的複雜動作。這樣，整個手勢交互就處於動態狀態，計算機可以適當做一些語義理解的事情。

c、三維手勢識別

在二維手勢的基礎之上，增加景深信息，可以識別各種手型、手勢和動作。相比於二維識別技術，三維手勢識別在普通攝像頭的基礎上，又增加了深度信息需要的特殊硬體，目前世界上主要有3種硬體實現方案。

第一、結構光。其基本原理是載入一個激光投射器，在激光投射器外面放一個刻有特定圖樣的光柵，激光通過光柵進行投射，成像時會發生折射，從而使得激光最終在物體表面上的落點產生位移。當物體距離激光投射器比較近的時候，折射而產生的位移就較小；當物體距離較遠時，折射而產生的位移也就較大。這時，通過使用一個攝像頭來採集投射到物體表面上的圖樣，通過圖樣的位移變化，就能用演算法計算出物體的位置和景深信息，進而還原整個三維空間。但是它也有自己的缺陷，由於結構光依賴於激光折射後產生的落點位移，所以在太近的距離上，折射導致的位移不夠明顯，就不能太精確地計算出深度信息。所以，它最佳的應用範圍就是1到4米的位置。典型公司就是PrimeSense，之前Kinect一代的體感技術就來源於此，14年11月被蘋果公司收購。

第二、光飛時間。其基本原理是載入一個發光元件，發光元件發出的光子在碰到物體表面後會反射回來，使用一個特別的CMOS感測器來捕捉這些由發光元件發出、又從物體表面反射回來的光子，就能得到光子的飛行時間。根據光子飛行時間進而可以推算出光子飛行的距離，也就得到了物體的深度信息。就計算上而言，光飛時間是三維手勢識別中最簡單的，不需要任何計算機視覺方面的計算。典型公司是SoftKinetic，該公司為Intel提供帶手勢識別功能的三維攝像頭。同時，也為新一代Kinect提供技術。

第三、多角成像。其基本原理是使用兩個或者兩個以上的攝像頭同時攝取圖像，通過對比不同攝像頭在同一時刻獲得的圖像的差別，使用演算法來計算深度信息，從而多角三維成像，這種工作原理與人眼類似。多角成像是三維手勢識別技術中硬體要求最低，但同時是最難實現的。因為它不需要任何額外的特殊設備，完全依賴於計算機視覺演算法來匹配兩張圖片里的相同目標。相比於結構光和光飛時間這兩種技術成本高、功耗大的缺點，多角成像能提供「價廉物美」的三維手勢識別效果。典型公司就是Leap Motion，該公司主要在探索手勢識別在VR場景中的應用，未來有可能會應用到AR場景中。

綜上所述，我們認為，儘管在目前的大多數場景中，裸手交互還沒有成為主流。但隨著AR的場景需要和手勢識別技術的發展，最終裸手交互會成為AR的核心交互方式之一。

四、產業部分

關於產業部分，我們重點分析產業發展曲線和產業組成部分，前者是縱向的，後者是橫向的。

1、產業發展曲線

由於AR還處於萌芽階段，結合PC和智能手機的普及曲線，可以給我們有一些借鑒意義。

（1）PC

通過以上數據，我們可以得知：

第一、從普及路徑上看，PC的用戶首先是企業，其次才是個人，因為PC提高了人類的工作效率。

第二、從普及速度上看，企業用戶一直穩定上升，直到某個臨界點，開始飽和，增速下降。而個人用戶雖然快速增加，但明顯有兩個節點：a、1994—1995年是一個節點，原因在於兩點：Windows95的推出和互聯網的興起，前者是操作系統，降低用戶學習核心交互的學習成本，後者是網路帶寬，刺激了用戶的內容需求；b、2003—2004年是一個節點，除了2000年左右的互聯網泡沫之外，很大程度上是網路帶寬的提升，刺激了遊戲和視頻的需求。

第三、從普及率與相應的應用來看：在0到15%時，適合2B機會；在15-20%時，適合工具、資訊等機會，在20—40%時，適合社交、視頻、遊戲等機會，在40%以上時，基本沒有純線上的2C機會，會跟一些行業結合，產生新的2C機會。

（2）智能手機

由於智能手機主要是個人用戶推動的，因此，在看它的普及軌跡時，與羅傑斯的創新擴散理論更匹配。

結合PC和智能手機的普及規律，AR普及也需要類似的曲線。基於創新擴散理論，當前的AR還處於創新者階段（2.5%）。在普及路徑上，AR與PC類似，由企業用戶到個人用戶，但在使用場景上，AR與智能手機類似。

2、產業組成部分

鑒於AR產業鏈過大，以下我們僅對AR產業的核心部分進行一個簡單的梳理。

（1）底層技術

第一、AI。從AR的輸入、虛實融合和輸出，整個一條鏈都需要AI的支持。

第二、雲計算和大數據。由於AR結合的是現實，所以它的計算量和數據量會呈現指數級上升，它的發展也離不開雲計算和大數據的支持。

第三、計算機視覺。比之於PC和手機，AR的本質是信息呈現方式的升級，由二維升級到三維。不管是AR的輸入，還是輸出，都離不開計算機視覺。

第四、核心的交互技術。包括手勢交互、語音交互、眼球追蹤等。目前來看，裸手交互有望成為AR的核心交互方式之一。典型公司：leap motion、科大訊飛等

第五、操作系統。AR要成為下一代計算平台，就必須有自己的操作系統，就像windows之於PC，ios/安卓之於手機一樣。操作系統的好處就在於給產業上下游一個行業標準，利於行業發展。典型公司：微軟、谷歌。n

（2）核心零部件

第一、晶元。對標英特爾在PC時代和高通在手機時代的地位，AR也需要自己的晶元。相對於PC和手機偏向於CPU，AR和VR更偏向於GPU。典型公司：英特爾、高通、英偉達、AMD。

第二、感測器。這部分更多的是服務於信息輸入和輸出，而且感應的維度會更加立體，如人的動作、眼神等。典型公司：PrimeSense。

第三、光學鏡片。這是AR在顯示上顯著不同於PC和手機的地方，目前的難點在於工藝，主要是視角小、加工生產、設備小型化等問題。典型公司：水晶光電、lumus等。

（3）硬體廠商

按照AR的硬體迭代，目前AR硬體主要包括以下幾類：

第一、手持式AR。簡單來說就是手機+AR，典型應用就是pokemon go。

第二、空間式AR。目前很多商場會有一些人體識別和人臉識別的一些硬體產品，主要用於買衣服、玩遊戲等。

第三、透射式AR。以Hololens為代表，獨立計算，便捷攜帶。

第四、數字光場。以magic leap為代表，但目前證明，該項技術還沒有到產品化的層面。

（4）應用層

第一、行業應用。包括製造業、軍工、物流、醫療、教育、汽車、旅遊、餐飲等行業。個人認為，目前軍工和物流可以重點看看。原因有兩點：a這兩個行業都有AR這類視覺助手的需求，提高效果和效率明顯；b這兩個行業都有很強的付費能力；c這兩個行業都很大。

第二、個人應用。包括工具、娛樂、遊戲、社交、內容等，更多的是基於用戶行為的產品化。個人認為，我們在看的時候，就看兩個維度：a用戶行為與硬體屬性的結合程度；b用戶量。比如在智能手機上，我們可以舉一些成功的案例。比如美圖之於攝像頭和用戶的拍照行為以及對美的需求，陌陌之於LBS和用戶的社交需求，微信之於通信和用戶的IM需求等。當然，目前AR還沒有 2C的可能性。

五、總結

第一、AR起源於工業，適合做各類行業的視覺助手。

第二、AR在技術原理上涵蓋輸入和輸出，目前的難度除了光場技術的難度之外，還有AI、處理能力、設備小型化等問題。

第三、裸手交互有望成為AR的核心交互方式之一。

第四、AR的普及規律會與PC和智能手機類似，目前正處於創新者（2.5%）階段。

微信公眾號ID：garage1984，歡迎關注。個人微信號ID：lin_garage,添加請註明「公司/行業+姓名」，歡迎交流。