為了參與 Microsoft HoloLens 這樣的項目需要對哪些學術領域的知識有所了解?

如題,像 HoloLens 這樣的項目一般需要哪些背景的人參與? Graphics? Visualization? CV? 或者是微軟研究院內部自己組 Team 進行科研並開發?


HoloLens這個玩意兒涉及了好幾個技術領域,每樣拿出來都是前沿中的前沿,微軟一直厚積薄發。

先看看HoloLens實現了什麼功能。

1.重建場景

宣傳視頻中看到了這樣的畫面,所以基本可以確定,在使用前,通過深度攝像頭需要對房間進行建模,然後將房間的三維模型就存儲在眼鏡中了,之後再使用的時候就可以省掉建立場景的步驟,這樣可以大大降低運算量。

同時,這意味著你並不能每走到任何一個地方,它就可以向科幻電影一樣直接在牆面上顯示各種炫酷的交互界面,在此之前必須有一個初始化的過程。

形象點說,HoloLens把房間的布置徹底的記了下來。

這裡場景建模演算法很關鍵,因為這並不像拍一張照片一樣「咔嚓」就完了,要獲得360度無死角的房間模型,意味著用戶必須像拍全景照片似的把房間掃一遍,HoloLens在這裡既要解決可能存在的抖動,還要像全景照片一樣不斷的融合獲取的三維點雲數據。

經典的演算法如 ICP迭代就近點 http://en.m.wikipedia.org/wiki/Iterative_Closest_Point

而且運算量不會小,之前嘗試使用kinect做開發,輸出的點雲數據都是Gb/s級的。不過之前微軟用Kinect做出一些成果展示,illumiroom之類的,說明微軟在這方面功力相當深厚。

當然,建立場景也不是一勞永逸的,看起來微軟還要解決一些問題,比如當房間的布置變了,使用眼鏡的時候也應該能自動觸發更新之類的 -_-

2.位置匹配

場景建立之後,便是位置的匹配。位置是指的HoloLens的位置,也就是用戶的位置。我並不清楚這裡所使用的方法。所以不妨猜測一下,HoloLens這時依然使用深度攝像頭,但是只需要獲取少量的圖形數據便可以與HoloLens里的三維模型進行比對,通過簡單的透視運算就可以獲得HoloLens在房間中的位置。

形象點說,如果你看到前面有一個籃球,你覺得你離籃球大概2米,你是怎麼估算這個2米的呢?因為你的記憶中有籃球的直觀大小,所以你又根據籃球在你視野中的大小估計出了籃球離你2米。HoloLens做到了這個,只不過更加精確,原理和演算法可能更加複雜。

3.交互(增強現實)

看起來酷酷的交互,就是各種app了,從圖中可以看出HoloLens可以手勢識別。這個就不贅述了。

這種全息影像是怎麼顯示的呢?

原理Google Glass相同,貼一張圖

但是HoloLens做到的應該會比Google Glass更好,我敢這麼說因為如果HoloLens需要顯示逼真的全息影像,必須讓用戶產生一種錯覺:顯示的內容好像真的在空氣中一樣。

要做到這一點,HoloLens上的投影顯示設備必須可以動態的改變顯示焦點,這樣人眼在不同的深度對焦就會產生不同的深度感,而且焦點範圍還需要足夠大,幾厘米到幾十米甚至無限遠都可能。

有了深度感才能做到讓一個物體顯示出讓用戶看起來像在貼在牆壁,放在桌面上的錯覺。

----說這麼多好像沒有直接回答問題。

總的來說,如果是程序員的話,圖形學,機器視覺是基礎,能力背景的話,只要相關基礎紮實都應該可以吧(反正答主都不會-_-)

但是,做出這麼一個強大的東西,肯定不能不能只是程序員就能幹的來的,比如強大的深度攝像機,投影顯示設備,這都不是寫代碼寫的出來的。

而且我一直覺得微軟研究院那幫人應該是想像力豐富,執行力強,說干就乾的科學家.

好了,先說這麼多吧,可能有些地方並不太正確,歡迎指正。

^_^


這種黑科技那是必須有研究背景,比如這種:

視頻封面Handpose_Fully_Articulated_Hand_Tracking視頻

網上可以搜到論文:Handpose: Fully Articulated Hand Tracking

科學家才是推動人類社會進步的根本動力。


昨天剛上了Prof. Steve LaValle(Facebook前段時間買下來的那個Oculus的首席開發科學家,UIUC的教授)開的Virtual Reality(VR)的課。聽見他對HoloLens的評價也很高,雖然某種意義上說,Oculus和HoloLens是競爭對手的關係。

其實題主所談的「參與HoloLens這樣的項目」,其實是個很大的概念。這樣的項目研究,不光需要我們ECE和CS研究的Graphics,硬體和軟體相關的領域,同時也需要比如比如心理學,人體工程學,甚至物理學的研究。

以上很多答案已經介紹過了關於EECS方面領域的研究了,雖然這是我的本行,但我還是就不要重複其中的細節了。我在這裡試試從big picture的角度來總結一下為什麼我需要那些相關領域的研究來支持HoloLens一類的VR設備的開發。

首先我們需要知道:HoloLens是Virtual Reality(VR)的一種實現技術。什麼是VR的本質和追求的目標?其實VR的本質和目的是欺騙你的大腦

如果我們把人的一切感知器官,例如眼睛,鼻子,耳朵,皮膚,舌頭等等,理解為對應的視覺,嗅覺,聽覺,觸覺,味覺的Sensor。大腦通過接收和分析這些Sensor的output來認知人體所處的現實,稱為「感知現實」。

這個過程可以簡單表示為:

真實現實 ——&> Sensor ——&> Output ——&> 大腦 ——&> 感知現實

我們的問題是,就能否讓大腦認知到不同於真實現實的虛擬現實?換句話說,我們要實現「感知現實」 不等於 「真實現實」,而等於我們希望達到的虛擬現實。

那麼看看之前的這個流程,可行的辦法就是改動這其中的任意一環。

目前流行的手段,通常是改變第一個環節,即 真實現實 到 Sensor這個環節,我們添加中間環節(例如Google glass,HoloLens)。

另外,目前我們大多的VR設備重點努力在改變Visual上,有一些Audio方面的努力,但其他方面因為相對次要,所以還沒有進行有效的整合。這也是為什麼大部分的研究大都集中在Graphics上,因為看上去Visual上的改變是最有用,而且最dominant的。

相比於Oculus,微軟這次的HoloLens做到了很重要的一點,那就是虛擬現實是adaptive to真實現實的。這很重要,因為跟我前面所描述的一樣,因為在還沒有整合如何改動其他Sensor的Input(例如聽覺,觸覺,嗅覺...)的前提下,讓虛擬現實不要過分脫離真實現實,而是基於真是現實之上,顯然對欺騙大腦有更好的功效。要實現這一點,微軟之前的Kinect黑科技可謂是功不可沒(這個可以展開講很久。。。)。

對於VR設備而言,另外一個需要解決的問題,是如何有效地對虛擬現實產生實時的影響。除了被動的感受從而感知現實,大腦還有一種feedback機制與現實互動,並且這裡的有效性對判斷感知現實是否為真實很重要!

舉個最簡單的栗子:當我們看見一件太過精美的東西,開始懷疑他的真實性的時候,我們的第一直覺往往是「摸一下,看看他是真的嗎?」。這個「摸一下」的動作,即是與現實的主動互動,從而觀測感知現實的變化,通過和預期進行預期比對,判斷感知現實是否為真是現實。那麼要在這個方面欺騙大腦,VR設備就需要對人的主動動作,在虛擬現實里做出對應的改變並符合大腦的預期。

在這個方面,從現場的展示和概念片里,我認為HoloLens也是做得很出色的。除了Kinect的相關科技,對目標深度信息的準確掌握以外,Cortana相關的語音識別技術的出色表現,也成功地handle了聲控這個方向。

現在來看看微軟,從Kinect到Cortana到HoloLens,真是點得一手黑科技樹啊。。。其實跟主流的科技公司相比,微軟雖然現在的一些產品的表現處於下風,但是對科技儲備的投入卻一直是領先。科研到產品,一般需要一個相對比較長的時間,短則3,5年,長則10年以上。看來微軟這次憋得一手好大招,說不定這是一個好的契機,可以重整河山。


Graphics方面的領域有 Reconstruction, Eye Tracking, Rendering, Display technologies。

當然還需要一些Vision的知識,還有關於Perception的理論。


要相信碼農的無所不能,代碼寫得溜,數學基礎好,沒有什麼幹不成的活。接觸越多厲害的研究,越覺得學術和工程之間沒有界限。

HoloLens本身並沒有特別創新或者核心的點,更像一個mockup, Meta glass + Cortana + SLAM. 每個技術都能找到很多同類產品,沒有哪個點是學術研究突破了,才有了這個產品。雖然看起來很多方面,但大部分東西都已經有open source的資源在。所以大膽假設算上硬體,設計師,雜七雜八的,以及完成度很高,整個team可能在50個人以下,或者更少。

不管在哪個公司的研究院,從論文轉移技術到產品,永遠是一件很難的事。這也是為什麼某家有個X和研究院兩個部門,且兩個部門不怎麼合作。實現HoloLens這樣一個項目,最重要的還是普通的工程師力量,只要有少量的架構師,科學家知道方向,知道什麼能做什麼不能做,再有一批優秀的工程師,知道quaternion等基本3d 概念,感覺就可以倒騰出來。

ps. 另外酸狐狸還是很懷疑Hololens的完成度,從live demo的視頻來看,並沒有和meta glass有什麼區別。雖然宣傳視頻上牛有點吹大了,但是看看同一時間的研究論文,就覺得很多還是yy階段。當然也有可能nb engineer秒殺學術界,這種事情不是沒發生過。

RoomAlive: Magical Experiences Enabled by Scalable, Adaptive Projector Camera Units [UIST 2014] 這個是14年uist的文章,也就是去年4月份投出去的論文,需要很多個kintects,以及投影儀才能有效的對一個房間重建模型。這才幾個月過去,靠一個眼鏡就能三維重建還是特別"腦袋吹風"的。

視頻封面IllumiRoom 後續項目:RoomAlive 將整個房間打造為沉浸式遊戲體驗視頻

IllumiRoom : Peripheral Projected Illusions for Interactive Experiences [CHI 2013]

這個是CHI 2013 年的。

視頻封面微軟IllumiRoom虛擬技術 讓牆壁變成你的屏幕視頻

還有再早一些相關的research: Build Your World and Play In It .

最後向偶像表白,

雖然鋪天蓋地的hololens宣傳,但是做出surface hub的jeff han 才是我的偶像。


主要是computer graphics和computer vision的技術, 包括(1)real-time 3D reconstruction, 代表作是微軟的kinectFusion; (2) 3D tracking, 有基於detection的,有基於ICP tracking的,CVPR這兩年都有關於手跟蹤的論文。微軟似乎沒有公布Handpose: Fully Articulated Hand Tracking的論文,推薦Chen Qian的Realtime and Robust Hand Tracking from Depth。當然不僅僅微軟在做這個,Intel也在大力推廣他家的RealSense。一個叫Nimber VR(http://nimblevr.com/index.html)的startup在手勢跟蹤及應用方面做得很好,已經被Oculus收購,有興趣可以看看他們的demo視頻,https://http://www.youtube.com/watch?v=v_U3BmDlmtc。如果想入門,graphics方面推薦學習openGL,vision方面學習 kinectFusion. stereo vision, structure from motion等,如果要工程實現,還需要cuda等技術。


主要是recognition和reconstruction。recognition可能主要是gesture,可能有一點點object recognition, 這個不太可能實時,耳麥應該有speech recognition。reconstruction估計就是depth + rgb + slam。。還有顯示那塊應該也有不少東西不太了解


Hololens出來之後,才知道誰在裸游:)

Btw 圖形學的學生可以高薪點了嗎?


計算機專業方向有的是:圖形學,空間識別,人工智慧,機器學習,晶元設計,custom chip,光學方向有的是全息投影,全息成像等。

Hololens 最主要的特性在於實時空間掃描和建模,快速運算生成全息圖像,語音識別,動作識別。前幾個都是計算機方向的專門領域,可歸納到人工智慧之中,識別可歸納到機器學習之內。硬體上的實現需要專門的圖像處理晶元,這就涉及到GPU的設計,專門晶元的設計,圖形學的內容。可能需要一些有過全息方面工程光學背景的人提供指導。

這些領域的PHD或者碩士可以應該是該lab 的核心力量。

下面幾個答案挺對,最上面的答案反而一眼就看出外行了:只知其表,不知其里。還帶有一絲無緣由的羨慕。這種羨慕往往在大眾對搞黑洞搞宇宙學科學家的崇拜中見得最多,而他們所研習內容的枯燥,艱苦,低收入,反倒隻字不提了。

的確,只會寫代碼是做不成的。物理世界需要數學家,科學家與工程師協力。不過其中還有windows 10 API, 可見C# C++ 程序員的需求也不會少。這個組一定有相當多數的系統程序員。

另外要念PHD的話,可是不可能成天水知乎的哦。。

原來某人的怨念來自於此。果然是賺了錢開始要自我實現了=

卻不知道絕大多數PHD找工作焦頭爛額。說到底,還是容易羨慕那些自己不懂的事。我也羨慕寫幾個資料庫就能年薪上百萬的某位大叔呢~


推薦閱讀:

虛擬現實(VR)和增強現實(AR)背後的核心技術是什麼?
有什麼讓你瞬間覺得體驗提升的電腦或平板周邊外設產品?
有哪些美國的大學的HCI碩士比較好?
智能硬體交互有什麼發展趨勢?
認知科學和設計領域中的 Affordance 是什麼?

TAG:微軟Microsoft | 人機交互 | 虛擬現實VR | 計算機圖形學和可視化 | HoloLens |