如何評價FOVE的眼動追蹤？

01-25

1.1、彩蛋：目光交流

先放個超級彩蛋——這是FOVE中最迷人的demo

我進入一個場景，在看近處的草地和遠處的樹木，這時女孩回過頭來，望了我一眼。

（此女是遊戲中一個NPC）

而當你看向她的眼鼻三角區。

她居然朝我笑了，我心中一盪……

我當時玩到這個demo時美哭了，不愧是日本人的作品。

我們在社交的時候是需要知道別人在看的地方的，VR social 也是如此，而現在的HoloLens和oculus因為沒有eye tracking，所以都是以HMD屏幕中心的cursor來代替目光的。

—————————————————————————————————————

1.2、彩蛋：面部表情輸入功能

因為眼睛的形狀和位置可以決定人的表情（人臉的表情集中在眼鼻三角區），所以FOVE可以做表情輸入，比如社交遊戲中控制角色的表情（在面部識別上他們做的也不錯，他們的CTO就是facial recognition方面的大牛。）

VR中的avatar，根據用戶的眼睛形狀和位置生成的相應表情。這個功能被叫做化身眼睛映射（Avatar eye-mapping），顧名思義，將現實中你的眼睛映射進虛擬中（雖然現在還有差距）。

—————————————————————————————————————

彩蛋放完，下面進入正題：

我去日本旅遊時約到了這家公司的創始人，並體驗到了FOVE的原型機。當所有人都在幻想用眼動做VRAR交互時，這叫公司已經把產品做出來了。

本人是高度近視，以前嘗試用外置紅外攝像頭捕捉眼睛時，因為紅外光被鏡片折射了很多，所以誤差很大，而這個FOVE因為設計了很長的空間來『鑲嵌』眼鏡，就是把眼鏡往前面頂，貼到HMD的鏡片，以避免鏡片遮擋到那幾個追蹤眼球的紅外攝像頭。

這大概也是它為什麼設計得這麼長的原因。當然，據說新的一代會直接可以調節屈光度，就不需要鑲嵌眼鏡這麼麻煩啦~

—————————————————————————————————————

顯示器、眼動儀和眼睛之間可以建立一個坐標系，比如放在桌上的 table mounted，你的頭微微一動，你和眼動儀的位置就改變了，眼動儀捕捉你眼睛的數據就不準了；移動端 hands mounted，需要手持設備和頭盡量保持相對靜止；而頭戴式的head mounted就簡單多了，因為HMD是戴在頭上的，所以顯示器、眼動儀、用戶的眼睛頭部三者保持相對靜止，這樣測得的結果是最準確的。

—————————————————————————————————————

2、佩戴初體驗

目前它的眼動追蹤的精度大概是(1/5)°，而FOV是100，2560/2/100/5≈2，就是眼動可以精確到兩個像素的級別，相當於現在視網膜屏上滑鼠的精度。

去年我在七鑫易維實習的時候，就曾目睹幾大眼動追蹤廠商競標Google glass和meta等，可見下一代ARVR眼睛必定會用到這項技術。

它的核心正是2個小型的紅外攝像頭追蹤系統（small form-factor infrared eye tracking systems），用它來track瞳孔的運動，每秒鐘120幀。

評論區有知友說延遲，其實延遲比較多地出現在動態掃視（saccade dynamics）時。

注意畫面上的小白點，上下左右各一個紅外LED，在黑暗中『照亮』你的眼睛。通過角膜反射（corneal reflection）和瞳孔的中心算出眼睛的位置。

每個用戶第一次用眼動功能都需要初始校準（initial calibration），就是眼睛聚焦在屏幕上九個綠點。在系統記住你的數據後就可以復用了。

—————————————————————————————————————

3.1、景深和黃斑渲染

除了光場，還有什麼方式能解決VR顯示的accommodation-vergence conflict？

—————————————————————————————————————

3.2、眼動界面交互

用眼動和界面交互體驗如何？

—————————————————————————————————————

3.3、用眼睛轉動代替頭部轉動改變視角。

眼動交互比起頭動交互有什麼優勢？

—————————————————————————————————————

3.4、視線鎖定目標

下面講的一個功能叫視線鎖定目標（line-of-sight targeting）。

聚焦在一個物體上，則放大，顯示它的更多細節。

當眼睛聚焦在可交互物體時，顯示相關信息。

同理，也可以用來行走，走到你視線聚焦的位置。

focus敵人的頭部……爆頭

focus你隊友的頭部

聚焦

顯示你隊友的相關信息。

還有通過眼動來射擊的，這個是第一demo，挺無聊的~

—————————————————————————————————————

3.5、手腳不便者的神器

還有就是手腳不便的殘疾人、甚至漸凍人、癱瘓病人，FOVE相當於給了他們一個

比如用眼睛控制機器人轉動頭部，

最牛的地方是它還可以通過用目光選擇鋼琴鍵，從而實現用眼睛彈鋼琴。（這裡是通過眼睛選擇和弦）

—————————————————————————————————————

用研領域

最後想說一句，這些眼動數據有多重要呢？在用戶研究領域我們都會買幾十萬的眼動儀來測試用戶的視覺中心，從而推斷用戶的意圖，，，所以眼動數據對於用研無比重要——

比如，用戶是怎閱讀文字的？那些廣告會吸引用戶？是怎麼吸引他們的？用戶從『看到』到『點擊』隔了多久？

現在很流行的視覺傳達專業不就是研究什麼樣形狀、顏色、大小的圖案和什麼樣的文字能吸引用戶嘛，而研究的來源就是這些眼動數據。不難想像像FOVE這樣的設備如果鋪開，絕對有大量的用研數據。

準備好迎接未來的用戶注意力之戰了嗎→ →

眼動追蹤將來應該會成為VR的標配，前面 @胡痴兒2.0已經講的比較全面了，但除了在交互和用戶體驗上的提升之外，眼動追蹤還能提高計算的效率，因為人眼只有中心區域是清晰的，如果能夠跟蹤到人眼的焦點，GPU計算的時候就可以只把焦點區域顯示的最清晰，把周圍區域的解析度降低，從而減少了計算量。

目前oculus也在做相關的研究，估計不久就會用在VR設備上，影響普及的關鍵因素應該是成本，據說FOVE這一套設備目前還是很貴的。

我個人比較關心的是對景深的模擬，因為現在很多AR設備像Magic Leap和HoloLens他們引以為傲的一點就是能夠包含光場的信息，從而可以任意對焦，但是目前的VR設備都是只有一個二維平面的信息，我在想，也許通過眼動追蹤來實現景深欺騙大腦是一個更好的方案，更簡單容易實現，成本也更低。

像AR那樣要處理整個光場的信息明顯是浪費資源，而且我一直認為像AR這樣基於光學增強的設備是沒有未來的，因為一直以來的趨勢就是更加數字化，從物理世界向虛擬世界遷移，VR設備是人機交互最好的媒介，就像我們現在幾乎99%的時間都在盯著屏幕，而不是物理世界的風景。

@胡痴兒2.0以及 @pollydiary 已經講得非常全面了，我補充一點。

關於 @pollydiary 提到的提升計算效率的問題，我個人目前不是很看好，因為人眼掃描速率很快，實時計算注視點位置並且渲染這個計算過程可能不比整屏渲染消耗的資源少。我了解的是可能做成九宮格或者類似屏幕分塊的，大致看一下注視點在哪個位置然後把一塊全渲染掉，作為一種平衡的辦法，但人眼移動實在是非常快啊！這種辦法能否實現還是不很清楚。

然後眼動瞄準什麼的需要一個前提就是遊戲的準星與視角要分開，大家玩FPS遊戲會發現你動動滑鼠槍口轉了然後視角也轉，槍口始終在屏幕正中的位置。但是眼控不可以這樣，必須是兩層操作：頭部轉動調整視角，眼睛注視控制瞄準點，二者必須分開。

國外目測已經有飛機的火控頭盔在研究把眼動加進去了，發展狀況我還在看文獻，不上圖了。