為了參與 Microsoft HoloLens 這樣的項目需要對哪些學術領域的知識有所了解？

01-06

如題，像 HoloLens 這樣的項目一般需要哪些背景的人參與？ Graphics? Visualization? CV? 或者是微軟研究院內部自己組 Team 進行科研並開發？

HoloLens這個玩意兒涉及了好幾個技術領域，每樣拿出來都是前沿中的前沿，微軟一直厚積薄發。

先看看HoloLens實現了什麼功能。

1.重建場景

宣傳視頻中看到了這樣的畫面，所以基本可以確定，在使用前，通過深度攝像頭需要對房間進行建模，然後將房間的三維模型就存儲在眼鏡中了，之後再使用的時候就可以省掉建立場景的步驟，這樣可以大大降低運算量。

同時，這意味著你並不能每走到任何一個地方，它就可以向科幻電影一樣直接在牆面上顯示各種炫酷的交互界面，在此之前必須有一個初始化的過程。

形象點說，HoloLens把房間的布置徹底的記了下來。

這裡場景建模演算法很關鍵，因為這並不像拍一張照片一樣「咔嚓」就完了，要獲得360度無死角的房間模型，意味著用戶必須像拍全景照片似的把房間掃一遍，HoloLens在這裡既要解決可能存在的抖動，還要像全景照片一樣不斷的融合獲取的三維點雲數據。

經典的演算法如 ICP迭代就近點 http://en.m.wikipedia.org/wiki/Iterative_Closest_Point

而且運算量不會小，之前嘗試使用kinect做開發，輸出的點雲數據都是Gb/s級的。不過之前微軟用Kinect做出一些成果展示，illumiroom之類的,說明微軟在這方面功力相當深厚。

當然，建立場景也不是一勞永逸的，看起來微軟還要解決一些問題，比如當房間的布置變了，使用眼鏡的時候也應該能自動觸發更新之類的 -_-

2.位置匹配

場景建立之後，便是位置的匹配。位置是指的HoloLens的位置，也就是用戶的位置。我並不清楚這裡所使用的方法。所以不妨猜測一下，HoloLens這時依然使用深度攝像頭，但是只需要獲取少量的圖形數據便可以與HoloLens里的三維模型進行比對，通過簡單的透視運算就可以獲得HoloLens在房間中的位置。

形象點說，如果你看到前面有一個籃球，你覺得你離籃球大概2米，你是怎麼估算這個2米的呢？因為你的記憶中有籃球的直觀大小，所以你又根據籃球在你視野中的大小估計出了籃球離你2米。HoloLens做到了這個，只不過更加精確，原理和演算法可能更加複雜。

3.交互（增強現實）

看起來酷酷的交互，就是各種app了，從圖中可以看出HoloLens可以手勢識別。這個就不贅述了。

這種全息影像是怎麼顯示的呢？

原理Google Glass相同，貼一張圖

但是HoloLens做到的應該會比Google Glass更好，我敢這麼說因為如果HoloLens需要顯示逼真的全息影像，必須讓用戶產生一種錯覺：顯示的內容好像真的在空氣中一樣。

要做到這一點，HoloLens上的投影顯示設備必須可以動態的改變顯示焦點，這樣人眼在不同的深度對焦就會產生不同的深度感，而且焦點範圍還需要足夠大，幾厘米到幾十米甚至無限遠都可能。

有了深度感才能做到讓一個物體顯示出讓用戶看起來像在貼在牆壁，放在桌面上的錯覺。

----說這麼多好像沒有直接回答問題。

總的來說，如果是程序員的話，圖形學，機器視覺是基礎，能力背景的話，只要相關基礎紮實都應該可以吧（反正答主都不會-_-）

但是，做出這麼一個強大的東西，肯定不能不能只是程序員就能幹的來的，比如強大的深度攝像機，投影顯示設備，這都不是寫代碼寫的出來的。

而且我一直覺得微軟研究院那幫人應該是想像力豐富，執行力強，說干就乾的科學家.

好了，先說這麼多吧，可能有些地方並不太正確，歡迎指正。

^_^

這種黑科技那是必須有研究背景，比如這種：

Handpose_Fully_Articulated_Hand_Tracking視頻

網上可以搜到論文：Handpose: Fully Articulated Hand Tracking

科學家才是推動人類社會進步的根本動力。

昨天剛上了Prof. Steve LaValle（Facebook前段時間買下來的那個Oculus的首席開發科學家，UIUC的教授）開的Virtual Reality（VR）的課。聽見他對HoloLens的評價也很高，雖然某種意義上說，Oculus和HoloLens是競爭對手的關係。

其實題主所談的「參與HoloLens這樣的項目」，其實是個很大的概念。這樣的項目研究，不光需要我們ECE和CS研究的Graphics，硬體和軟體相關的領域，同時也需要比如比如心理學，人體工程學，甚至物理學的研究。

以上很多答案已經介紹過了關於EECS方面領域的研究了，雖然這是我的本行，但我還是就不要重複其中的細節了。我在這裡試試從big picture的角度來總結一下為什麼我需要那些相關領域的研究來支持HoloLens一類的VR設備的開發。

首先我們需要知道：HoloLens是Virtual Reality（VR）的一種實現技術。什麼是VR的本質和追求的目標？其實VR的本質和目的是欺騙你的大腦。

如果我們把人的一切感知器官，例如眼睛，鼻子，耳朵，皮膚，舌頭等等，理解為對應的視覺，嗅覺，聽覺，觸覺，味覺的Sensor。大腦通過接收和分析這些Sensor的output來認知人體所處的現實，稱為「感知現實」。

這個過程可以簡單表示為：

真實現實 ——&> Sensor ——&> Output ——&> 大腦 ——&> 感知現實

我們的問題是，就能否讓大腦認知到不同於真實現實的虛擬現實？換句話說，我們要實現「感知現實」不等於「真實現實」，而等於我們希望達到的虛擬現實。

那麼看看之前的這個流程，可行的辦法就是改動這其中的任意一環。

目前流行的手段，通常是改變第一個環節，即真實現實到 Sensor這個環節，我們添加中間環節（例如Google glass，HoloLens）。

另外，目前我們大多的VR設備重點努力在改變Visual上，有一些Audio方面的努力，但其他方面因為相對次要，所以還沒有進行有效的整合。這也是為什麼大部分的研究大都集中在Graphics上，因為看上去Visual上的改變是最有用，而且最dominant的。

相比於Oculus，微軟這次的HoloLens做到了很重要的一點，那就是虛擬現實是adaptive to真實現實的。這很重要，因為跟我前面所描述的一樣，因為在還沒有整合如何改動其他Sensor的Input（例如聽覺，觸覺，嗅覺...）的前提下，讓虛擬現實不要過分脫離真實現實，而是基於真是現實之上，顯然對欺騙大腦有更好的功效。要實現這一點，微軟之前的Kinect黑科技可謂是功不可沒（這個可以展開講很久。。。）。

對於VR設備而言，另外一個需要解決的問題，是如何有效地對虛擬現實產生實時的影響。除了被動的感受從而感知現實，大腦還有一種feedback機制與現實互動，並且這裡的有效性對判斷感知現實是否為真實很重要！

舉個最簡單的栗子：當我們看見一件太過精美的東西，開始懷疑他的真實性的時候，我們的第一直覺往往是「摸一下，看看他是真的嗎？」。這個「摸一下」的動作，即是與現實的主動互動，從而觀測感知現實的變化，通過和預期進行預期比對，判斷感知現實是否為真是現實。那麼要在這個方面欺騙大腦，VR設備就需要對人的主動動作，在虛擬現實里做出對應的改變並符合大腦的預期。

在這個方面，從現場的展示和概念片里，我認為HoloLens也是做得很出色的。除了Kinect的相關科技，對目標深度信息的準確掌握以外，Cortana相關的語音識別技術的出色表現，也成功地handle了聲控這個方向。

現在來看看微軟，從Kinect到Cortana到HoloLens，真是點得一手黑科技樹啊。。。其實跟主流的科技公司相比，微軟雖然現在的一些產品的表現處於下風，但是對科技儲備的投入卻一直是領先。科研到產品，一般需要一個相對比較長的時間，短則3，5年，長則10年以上。看來微軟這次憋得一手好大招，說不定這是一個好的契機，可以重整河山。

Graphics方面的領域有 Reconstruction, Eye Tracking, Rendering, Display technologies。

當然還需要一些Vision的知識，還有關於Perception的理論。

要相信碼農的無所不能，代碼寫得溜，數學基礎好，沒有什麼幹不成的活。接觸越多厲害的研究，越覺得學術和工程之間沒有界限。

HoloLens本身並沒有特別創新或者核心的點，更像一個mockup， Meta glass + Cortana + SLAM. 每個技術都能找到很多同類產品，沒有哪個點是學術研究突破了，才有了這個產品。雖然看起來很多方面，但大部分東西都已經有open source的資源在。所以大膽假設算上硬體，設計師，雜七雜八的，以及完成度很高，整個team可能在50個人以下，或者更少。

不管在哪個公司的研究院，從論文轉移技術到產品，永遠是一件很難的事。這也是為什麼某家有個X和研究院兩個部門，且兩個部門不怎麼合作。實現HoloLens這樣一個項目，最重要的還是普通的工程師力量，只要有少量的架構師，科學家知道方向，知道什麼能做什麼不能做，再有一批優秀的工程師，知道quaternion等基本3d 概念，感覺就可以倒騰出來。

ps. 另外酸狐狸還是很懷疑Hololens的完成度，從live demo的視頻來看，並沒有和meta glass有什麼區別。雖然宣傳視頻上牛有點吹大了，但是看看同一時間的研究論文，就覺得很多還是yy階段。當然也有可能nb engineer秒殺學術界，這種事情不是沒發生過。

RoomAlive: Magical Experiences Enabled by Scalable, Adaptive Projector Camera Units [UIST 2014] 這個是14年uist的文章，也就是去年4月份投出去的論文，需要很多個kintects，以及投影儀才能有效的對一個房間重建模型。這才幾個月過去，靠一個眼鏡就能三維重建還是特別"腦袋吹風"的。

IllumiRoom 後續項目：RoomAlive 將整個房間打造為沉浸式遊戲體驗視頻

IllumiRoom : Peripheral Projected Illusions for Interactive Experiences [CHI 2013]

這個是CHI 2013 年的。

微軟IllumiRoom虛擬技術讓牆壁變成你的屏幕視頻

還有再早一些相關的research: Build Your World and Play In It .

最後向偶像表白,

雖然鋪天蓋地的hololens宣傳，但是做出surface hub的jeff han 才是我的偶像。

主要是computer graphics和computer vision的技術，包括(1)real-time 3D reconstruction, 代表作是微軟的kinectFusion; (2) 3D tracking, 有基於detection的，有基於ICP tracking的，CVPR這兩年都有關於手跟蹤的論文。微軟似乎沒有公布Handpose: Fully Articulated Hand Tracking的論文，推薦Chen Qian的Realtime and Robust Hand Tracking from Depth。當然不僅僅微軟在做這個，Intel也在大力推廣他家的RealSense。一個叫Nimber VR（http://nimblevr.com/index.html）的startup在手勢跟蹤及應用方面做得很好，已經被Oculus收購，有興趣可以看看他們的demo視頻，https://http://www.youtube.com/watch?v=v_U3BmDlmtc。如果想入門，graphics方面推薦學習openGL，vision方面學習 kinectFusion. stereo vision, structure from motion等，如果要工程實現，還需要cuda等技術。

主要是recognition和reconstruction。recognition可能主要是gesture，可能有一點點object recognition, 這個不太可能實時，耳麥應該有speech recognition。reconstruction估計就是depth + rgb + slam。。還有顯示那塊應該也有不少東西不太了解

Hololens出來之後，才知道誰在裸游:)

Btw 圖形學的學生可以高薪點了嗎？

計算機專業方向有的是：圖形學，空間識別，人工智慧，機器學習，晶元設計，custom chip，光學方向有的是全息投影，全息成像等。

Hololens 最主要的特性在於實時空間掃描和建模，快速運算生成全息圖像，語音識別，動作識別。前幾個都是計算機方向的專門領域，可歸納到人工智慧之中，識別可歸納到機器學習之內。硬體上的實現需要專門的圖像處理晶元，這就涉及到GPU的設計，專門晶元的設計，圖形學的內容。可能需要一些有過全息方面工程光學背景的人提供指導。

這些領域的PHD或者碩士可以應該是該lab 的核心力量。

下面幾個答案挺對，最上面的答案反而一眼就看出外行了：只知其表，不知其里。還帶有一絲無緣由的羨慕。這種羨慕往往在大眾對搞黑洞搞宇宙學科學家的崇拜中見得最多，而他們所研習內容的枯燥，艱苦，低收入，反倒隻字不提了。

的確，只會寫代碼是做不成的。物理世界需要數學家，科學家與工程師協力。不過其中還有windows 10 API, 可見C# C++ 程序員的需求也不會少。這個組一定有相當多數的系統程序員。

另外要念PHD的話，可是不可能成天水知乎的哦。。

原來某人的怨念來自於此。果然是賺了錢開始要自我實現了=

卻不知道絕大多數PHD找工作焦頭爛額。說到底，還是容易羨慕那些自己不懂的事。我也羨慕寫幾個資料庫就能年薪上百萬的某位大叔呢～