3D手勢交互，用於VR（至少到目前為止）是大材小用了？

01-21

最近看見一篇文章，其提出一個觀點：在移動VR交互上使用3D手勢識別技術，實際有點殺雞用牛刀的感覺。
不知道大家怎麼看？
在移動VR交互上使用3D手勢識別技術，實際有點殺雞用牛刀的感覺，目前移動VR主要是一些視頻和輕量級的遊戲，並沒有重度交互的需求，而且3D手勢識別加入的深度信息對於大部分人來說太超前，而且大部分人臂展不超過1米，深度信息在這裡沒法體現出相對2D平面的不同。根據數據分析，95%以上的人在體驗手勢識別時候沒有深度概念，很多人經過提醒也無法很好掌握深度的交互。

我們是不是就能夠得出這樣一個推論——一個基於普通單攝像頭通過2D手勢識別交互系統就夠能滿足目前大部分VR場景的交互需求。

謝邀。

同意該文章的觀點，移動VR的普及速度很快取決於它低廉的頭顯價格以及基於智能手機平台的各種應用，配上一個簡單VR眼睛便可體驗到顛覆於傳統移動端的平面顯示。但隨之也引出了一個問題——交互的不便利。在移動VR環境下，現在大多數視頻內容平台使用的是Gaze Control來完成非接觸式的交互，利用VR頭顯的陀螺儀及手機自帶的重力感應，對某點停留1-2s完成點選。體驗過的人相信都覺得十分笨重，甚至不如把手機取下來再插進頭顯中。

大家都知道，VR這個概念已經出來了不少年頭，但真正爆髮式增長與普及，也就是近幾年，2016更是被譽為VR的元年。有了全新的顯示方式的載體，自然也少不了交互方式的顛覆（哪怕是基於PC端，我堂堂虛擬現實，你不能讓我用鍵盤滑鼠交互吧），隨之就湧現了各式VR交互方式的解決方案（這裡先不說各式的空間體感控制器），將移動VR的輕交互之前，我想先說說現在的3D手勢識別：

1.以PrimeSense的Kinect一代為代表，基於結構光(Structure Light)的圖形信息識別。

這種技術的基本原理是，載入一個激光投射器，在激光投射器外面放一個刻有特定圖樣的光柵，激光通過光柵進行投射成像時會發生折射，從而使得激光最終在物體表面上的落點產生位移。

當物體距離激光投射器比較近的時候，折射而產生的位移就較小;當物體距離較遠時，折射而產生的位移也就會相應的變大。這時使用一個攝像頭來檢測採集投射到物體表面上的圖樣，通過圖樣的位移變化，就能用演算法計算出物體的位置和深度信息，進而復原整個三維空間。

以Kinect一代的結構光技術來說，因為依賴於激光折射後產生的落點位移，所以在太近的距離上，折射導致的位移尚不明顯，使用該技術就不能太精確的計算出深度信息，所以1米到4米是其最佳應用範圍。

2.以SoftKinetic的技術為代表，基於TOF（Time of Fly）的解決方案。

光飛時間是SoftKinetic公司所採用的技術，該公司為Intel提供帶手勢識別功能的三維攝像頭。同時，這一硬體技術也是微軟新一代Kinect所使用的。

即感測器發出經調製的近紅外光，遇物體後反射，感測器通過計算光線發射和反射時間差或相位差，來換算被拍攝景物的距離，以產生深度信息，此外再結合傳統的相機拍攝，就能將物體的三維輪廓以不同顏色代表不同距離的地形圖方式呈現出來。

就計算上而言，光飛時間是三維手勢識別中最簡單的，不需要任何計算機視覺方面的計算。

3.以Leap Motion為代表，雙攝像頭多角成像(Multi-camera)獲取深度信息。

近期廣為曝光的國內Usens公司新產品Fingo採用的也是該技術。

多角成像的基本原理是使用兩個或者兩個以上的攝像頭同時攝取圖像，就好像是人類用雙眼、昆蟲用多目複眼來觀察世界，通過比對這些不同攝像頭在同一時刻獲得的圖像的差別，使用演算法來計算深度信息，從而多角三維成像。

雙攝像頭測距是根據幾何原理來計算深度信息的。使用兩台攝像機對當前環境進行拍攝，得到兩幅針對同一環境的不同視角照片，實際上就是模擬了人眼工作的原理。因為兩台攝像機的各項參數以及它們之間相對位置的關係是已知的，只要找出相同物體在不同畫面中的位置，我們就能通過演算法計算出這個物體距離攝像頭的深度了。

多角成像是三維手勢識別技術中硬體要求最低，但同時是最難實現的。多角成像不需要任何額外的特殊設備，完全依賴於計算機視覺演算法來匹配兩張圖片里的相同目標。相比於結構光或者光飛時間這兩種技術成本高、功耗大的缺點，多角成像能提供「價廉物美」的三維手勢識別效果。

以上三種主流的解決方案，均有著大大小小的廠商瓜分著市場。不得不承認，無論是對於體感還是手勢識別，PC端的VR交互正在日趨完善，哪怕是操作複雜需要深度交互的大型遊戲，這些解決方案也能完美deal。可是，它們都存在著一個巨大的前提——額外的攝像頭或是感測器設備。

這註定了它們無法適用於移動VR。

如果要識別深度信息，以完成手勢交互必定需要為手機外接額外圖像感測設備或者附加於VR眼睛上。試想一下，僅僅是為了實現手勢交互功能，你需要額外付出299、699、甚至999RMB的價格（一個入門級的VR眼睛僅僅幾十至上百元），這對於一個只是想要在移動端體驗一下VR這項「高端」技術的用戶而言，恐怕是難以接受的。VR眼睛廠商也是不會將這些解決方案引入自己設備中的。

所以，若是想要改進現階段移動VR噁心的交互方式，除了期待高精度的語音識別，就是基於普通單目（手機）攝像頭的手勢識別了。有心者可以發現，Samsung GearVR/Google Cardboard或是國內大型VR眼睛的製造商（如暴風魔鏡/Pico），均留出了手機攝像頭的探出區域，這其中的暗示無需多言了吧。就答主目前了解到的信息，已經有公司在做這方面的解決方案（以色列國內均有），雖說是基於2D視覺信息的識別，但通過RGB解析與演算法的優化，依舊可以出色地識別手勢的動態信息，相信這一定是未來移動VR交互方式的主流。

不過，話再說回來。

虛擬現實這種與外界完全隔離的沉浸式體驗，是不適合移動端的。隨便試想一個應用場景，在地鐵上，戴著VR頭顯的你完全沉浸在影片帶來的視覺震撼中，然後，然後坐過站了......無論是未來移動VR的內容做的多精彩、交互方式做的多流暢，「與世隔絕」的沉浸感註定了與移動端的輕度、便捷背道而馳。移動VR註定了只能做虛擬現實市場的教育者，未來VR技術的深度挖掘，恐怕依舊是在PC，就是今後一體機、手機VR盒子做的體驗很棒了，依舊無法滿足移動體驗的需求。AR（Augmented Reality）MR（Mixed Reality）才是未來移動端的發展趨勢，想想輕薄的眼鏡可以取代跟隨了我們這麼多年的手機，真是有點小激動呢。期待Magic Leap，Google glass，Hololens帶給我們生活的顛覆。

貌似扯遠了...希望敲了一個小時的答案能對題主有所幫助。

我的看法是相反的，目前基於攝像頭的手勢識別是有著很大的缺陷的。

攝像頭一般是固定在頭盔上的，hololense、oculus＋leap motion都是如此，但人類做手部的動作時，有時候手掌會把手指擋住，造成攝像頭看不到被手掌擋住的手指繼而無法識別該手指動作形成識別死區，這個是人機交互的大忌。試想你的滑鼠一旦移動到了某個區域左鍵就會失靈，你還能在電腦上愉快的玩耍么？

而vive的體感手柄則沒有這個問題，做任何動作，任何按鍵的操作都會被很準確的識別。所以目前體感手柄才是可靠的VR體感操作解決方案。

當然數據手套也可以，甚至可以添加力反饋，但是成本太高，目前還沒法很好的普及。

謝邀。

不是VR行業的，但在做手勢交互相關工作。如有紕漏請指正。

首先說一下觀點，我不太同意這篇文章的結論：「一個基於普通單攝像頭通過2D手勢識別交互系統就夠能滿足目前大部分VR場景的交互需求」。

先說手勢交互。

1、2D的手勢交互能做什麼？

可以對RGB圖進行靜態的手勢識別和簡單的動態手勢交互，比如識別一下當前手勢表示的是數字幾，識別一下手是左右揮動，還是畫個圈或者畫個叉。這方面的研究有不少，事實上在深度攝像頭興起（主要的Kinect的普及）之前，基於視覺的手勢識別都是基於單幅彩色圖像的。

2、主要難點在什麼地方？

這其實也是基於RGB的識別演算法的通病，就是光照影響。雖然基於膚色的檢測和分割已經用了很多年了，但是從一個RGB圖中準確地找到手，還是一個頗有挑戰性的問題：如何克服環境光照的影響，背景比較雜亂甚至有跟膚色顏色相近的區域應該怎麼處理等等。

3、2D手勢交互做不了什麼？

深度信息的缺失，使得很多交互任務是2D手勢無法完成的。比如我要用手進行一個點擊操作，沒有了深度變化的信息，單從RGB圖上很難識別這個操作。總之，凡是涉及到深度變化的交互操作，2D手勢識別都很難完成。

再說說VR。

其實2D手勢交互是不是能滿足目前VR的交互需求，關鍵還得看這「需求」到底是什麼。

1、視頻。用VR眼鏡看個視頻，其實對交互的需求確實比較少。目前很多VR眼鏡採用的觸摸屏、或者通過簡單的頭部運動+頭盔的運動感測器就可以實現簡單的操作。這些交互任務，2D手勢交互是可以勝任的。

2、遊戲。簡單的遊戲，同樣可以通過2D手勢交互完成。但如果是真正的3D遊戲，2D手勢交互就無法滿足需求了。比如現在Oculus或者HTC Vive就已經有這類的遊戲。你所置身的是一個三維的場景，要跟三維場景裡面的物品進行交互，沒有深度信息是不可能做到的。現在Oculus和HTC Vive其實都採用的是手柄的解決方案，但是3D的手勢交互其實是一種更自然、更舒服的方式。NimbleSense就是做VR頭盔的手勢交互的，目前已經被Oculus收購，可以期待以後Oculus會引入3D手勢的交互模式。

上面兩個只是其中的一些應用場景。總的來說，對於簡單的場景，簡單的交互手段已經足夠。但是對於複雜的3D場景，3D的手勢交互是不可缺少的，而個人認為，這種更加真實和沉浸式的3D場景體驗，才是VR領域以後的一個著力點。

最後說說文章中的幾句話。

而且大部分人臂展不超過1米，深度信息在這裡沒法體現出相對2D平面的不同

這句話說得不太對，目前的深度探測手段，是足以在1米的範圍以內得到比較好的精度的。而Leapmotion或者Realsense R300系列，本身就是針對近場的深度測量的，而且都已經有近場3D手勢交互的應用。有了深度信息，自然是能體現出相對2D平面的不同的。

目前移動VR主要是一些視頻和輕量級的遊戲，並沒有重度交互的需求

目前很多用頭盔夾著手機的這類VR眼鏡，比如Samsung GearVR，以及國內的暴風魔鏡等，這類的產品大多是針對視頻和輕量級遊戲的，確實對交互需求較少。但Oculus、Vive這類產品，其實還是針對更加複雜的3D場景的應用的，是有著重度交互的需求的。

總的來說，我覺得對於VR來說，顯示和內容是很重要的方面，但是更加好的交互也是極其關鍵的。

交互本身就不是需求，滑鼠沒出現之前，沒有誰需要這種交互方式，只是用戶是否能習慣或者適應這種操作方式而已。所以目前用戶被提醒都不知道使用。要麼是交互設定不夠自然，要麼是被現在常見的交互方式所束縛了。

理論上來講，3D操作方式應該是用戶最容易接受的，人類生來就是用3D的方式操作來與外界接觸。

小孩子天生就知道伸手去抓眼前的東西。所以只要夠逼真，人是會自然而然用3D的方式操作的。

目前VR只是炒得火而已，等技術成熟，3D交互絕對是必須的。

哎。。。。

時間過得真快

樓上不知有誰都被打臉了呢

2016所謂的VR元年，，，

2017有什麼消息？

當年的暴風魔鏡哪裡去了?

國內做體感交互的就這麼幾家公司。。。其中一些還沒有核心技術

創業公司就不提了，不好意思，你什麼都不是

待我司2018年重振VR手勢交互產業吧

大家似乎都忘了VR系統本身自帶的手柄, 其實就可以做為一個現成的交互工具. 網路已有許多基於手柄中的 IMU 感測器的手勢識別演算法. 像是這幾個插件:

VR Infinite Gesture , Edwon Studio
VR Magic Gestures AI , Raving Bots
VR Gesture and Signature , AirSig

國內的討論提到 Infinite 插件比較多. 我個人實際測試的結果是 AirSig(國內的公司)

的手勢識別演算法是這三個裡面最準的. 這類基於手柄的手勢識別, 不需要特別的硬體, 也不怕光線環境變化, 主要就是要准, 不然用戶玩兩下就唾棄了.

遊戲設計的學生，目前正在自行接觸vr設備，也打算進行vr遊戲的設計，這段時間也打算做一些手勢上的研究，雖然是基於HTC VIVE

比較同意以上說法。如果2d的應用可以達到使用水準的話我認為是完全足夠的。

個人理解所謂人機交互並不是越複雜越好，而好的人機交互是在適應人的使用方式時又能幫忙改善使用習慣。3D的手勢交互固然優秀，對位置以及操作都有很好的手感，在vr世界中可以達到很高水準。但是移動端，使用的用戶以及場景，有時無法達到那麼高的使用標準，空間以及效率都達不到。其實道理就像是tx把lol移植到手機上變成的某遊戲一樣，其實遊戲的操作都是完全相同的，但是需要做的閹割絕對是無法避免的。

而在移動端的VR設備其實就是這麼個道理，本來移動端的設備要求的就是輕便簡潔，如果在操作和使用上去繁複，豈不是有些反了初衷。

當然，如何能讓這樣的操作變得簡單有效實用也還是個未解。

目前的VR交互不便是造成VR難以普及的最大因素，PC時代我們的經典交互是滑鼠+鍵盤
手機時代就升級到手指了，但這都只是在2D平面的交互輸入，一旦你看不見自己的手了，也看不見滑鼠了，你就沒辦法控制你看到的東西了，目前VR交互做得最好的是HTC的，表面是靠2個手柄，但是加上那幾個距離感應器，其實VR也就只能在小範圍玩而已，而且還很累，不知道是哪個設定VR的遊戲一定要站起來，一定要身體大幅度的運動才能玩得好，那還不如我出去打一場籃球呢，何必花這些冤枉錢，還玩不久。所以未來肯定需要有一種省力的，用雙手就可以操控VR而且不需要距離感應器這種反人類的東西的交互方式。

謝邀。我的觀點與之相反。首先這是技術的特性——服務社會。只有讓技術服務社會，才能體現技術的價值，哪怕是在所謂的「低端」市場；其次新技術的應用有一定的風險性，這裡主要指市場接受度。只有從大家對這個技術認可比較高的領域入手，才能取得效益；再者，3d比2d性能要好。我曾經玩一款體感遊戲——格鬥，沒有深度信息，這導致我不知道我與對手的距離，經常打空拳踢空腿，出拳和出腿經常檢測不到，這個事實說明3d效果好對用戶體驗的重要性（如果純粹二維的就略過）。再者，現在做3維的成本也很低，技術也成熟。最後，做產品不能只看眼前，現在用不到那麼高深的，不代表一年後，半年後甚至三個月後用不到，現在技術發展迅速，不對新技術的應用進行探索和積累，立馬就會被市場淘汰的。

作為這篇文章的撰寫者，我覺得首先需要明確一個問題，在目前來看，你在移動VR這一場景下，都來幹嘛？

1、用VR眼鏡看影視作品。你會不會有這樣一個場景，看到精彩的地方，來了個電話或者說聲音太低了，我想調高點。這時候你絕對不會想著把眼鏡摘下來，再用手指按手機操作吧，這很煩的對吧。如果這時候，你就是通過自己的手在攝像頭前面晃了晃就解決了需求，你還會很煩嗎？

這一場景下，我想你用3D手勢識別並沒有什麼大的用處吧？難道你會在看小片的時候，在攝像頭前面擺弄你的手，一會大一會小嗎？那你幹嘛不握著你的真傢伙呢？

我想，調個音量，掛個電話 2D手勢識別還是能做到的吧？

2、遊戲。遊戲在移動端VR應該分為兩種，需要深度交互的，需要輕度交互的。

（以下觀點為個人觀點）

你在移動端VR做需要深度交互的遊戲，你是在挑戰消費者嗎？深度交互意味著什麼？意味著你需要額外的購買硬體。什麼你沒錢？沒錢你玩什麼深度交互，出門左拐1塊錢4個幣的，你能玩上一天。

就算你有錢任性，買了能識別3D手勢的深度攝像頭，能識別手的Oculus Touch桿，放你胳膊上的Moy等等等等。之後你就能完美的體驗VR深度遊戲給你帶來的沉浸感了嗎？我只想知道一件事情，挖掘技術哪家強？不對不對，我是想知道，那你幹嘛不買個一體機呢？那個你還能一路走走停停呢。

這些手上拿的，胳膊上帶的，會不會無時無刻不在提醒著你，Hey，Man，你拿著個桿在這比劃啥呢？至於能識別3D手勢的攝像頭，你給我把手舉在眼前晃蕩半個小時時試試。

至於輕度交互的遊戲，我隨手嘩啦嘩啦2D的手勢識別應該還是沒問題的吧。