看球,我選上帝視角

看球,我選上帝視角

來自專欄量子位

安妮 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

4:3,梅西回家了;2:1,C羅也回家了,這屆世界盃真是激烈又精彩。

但對於無法前往現場的(偽)球迷們,只能屈身於手機、電視的平面看直播了吧?

在新技術應用一個接一個的今天,到底有沒有更新、更技術的方式,重新定義一下看個球?

試想一下:如果可以通過AR設備,將賽況實時投到桌面上,並且隨你移動,還能盡覽不同視角不同距離的全場景球況,該是多麼過癮的一種選擇。

就像這樣——

再如這樣——

噫……這是把世界盃搬到了任意桌面了么?而且還能各個角度繞著球場看比賽——就算身在現場也做不到啊!

恭喜你,這種「上帝視角」,可能不久就能實現了。

就在最近,華盛頓大學、Google和Facebook的研究人員開發了一套桌面足球系統,能將世界盃視頻重建,轉換成動態3D視頻。通過AR設備,可以看到渲染後的球員動作和場地效果。

擁有了這個系統,感覺宛如擁有了整個球場,這到底是怎麼做到的?

3D轉換的秘笈

桌面看球的大思路其實很簡單。

只要充分利用球場部署的多角度相機,之後通過多視角幾何技術,對場地和玩家進行三維重建,2D世界盃就升級為3D場景了。

因此,研究人員提出了這樣的思路——

先收集Youtube上世界盃球賽視頻,根據場地線來推斷相機的位置等參數。

隨後,提取視頻中的邊界線、球員姿勢和運動軌跡,將球員和場地分割,方便下一步加工。

「質壁分離」後,對球員進行單獨的渲染處理來實現立體效果。研究人員用視頻數據訓練深度神經網路模型,在球場上重建每個球員的景深圖,為實現360度無死角看球打基礎。

最後,如果你有AR設備……用AR設備或者3D查看器渲染一下,3D看球美美噠。

思路沒錯,但緊接著問題就來了:

想訓練神經網路模型根據球員圖像來估計他的景深圖,最理想的數據集里,應該包含著一對對的球員照片vs.景深圖。

這樣的數據集上哪找?

研究人員想到了EA出品的FIFA系列遊戲。截取FIFA遊戲引擎與GPU之間的調用信息,不就能從視頻遊戲的框架中提取景深圖了嘛。

從FIFA系列遊戲中提取圖像及深度

機智。

現在數據完備,就差個能夠預測景深的神經網路了。

研究人員選取了「沙漏網路模型」,用一連串殘差模塊,像一個個沙漏一樣來處理輸入,經過8個「沙漏模塊」實施降低輸入的解析度、放大等步驟,輸出的,就是我們所需要的景深圖。

重建3D球賽,Go!

準備階段完成後,研究人員開始重建3D場景。整個流程一氣呵成,猶如進入了快餐店後廚——

大概分為以下幾步:

  • 1.相機位置估計:用一個合成的平面場模板預估真實場景中每幀的參數,進一步找到相機在每個連續幀中的姿態。
  • 2.球員檢測和追蹤:提取球員的邊界box檢測到的關鍵點/骨架,基於姿態信息對初始的邊界框進行細化,再根據提取的邊框序列預計球員的運動軌跡。
  • 3.實時實例分割:預估每個球員用於深度預估網路的分割掩碼,藉助語義分割和前一步的姿態估計。
  • 4.網格生成:將上一步的前景掩碼與原始裁剪圖像混合,放入一開始預先訓練好的神經網路中進行訓練。
  • 5.形成3D軌跡:減少相機位置和邊界框定位時不精確帶來的球員抖動,對3D球員軌跡進行平滑處理。

一連串操作至此,3D合成大功告成。

研究人員將此模型的3D生成結果與原視頻和不同方法合成的結果進行了對比。

Youtube視頻上真實處理結果

渲染後得到最後的效果圖:

Youtube視頻幀(最上一行)及渲染結果(第2~4行)

毫無疑問,這種方法可以得到更精確和完整的深度估計,重建的效果也最好。

美中不足

雖然場景不錯,但這項技術目前並不完善,還不能讓你隨心暢看。

Bug 其實很明顯,剛在觀看效果的時候,各位有沒有看見足球?

——冇。

沒錯,目前這套系統最大的問題就是還沒有對足球進行處理,球的軌跡無法渲染出來,場上一票球員如同在踢「空氣球」。

此外,系統對球員及守門員的(位置)把控不夠準確,被遮擋的球員顯示不完整。這就導致球員有時球員會突然消失,然後突然出現,猶如習得傳送大法。

迷離消失的守門員

在論文中,研究人員表示,目前這項技術還在不斷改進和升級中,下一部的計劃是:

  • 改善畫面重建的品質
  • 實現實時3D重建
  • 預估足球的位置
  • 讓這項技術也能用於其他運動,讓籃球、橄欖球、排球等等運動的球迷也能同此待遇。

華盛頓大學出品

這項研究的論文Soccer on Your Tabletop發表在CVPR 2018上,作者有四,均屬於華盛頓大學(張亞勤母校)的GRAIL lab實驗室,分別為Konstantinos Rematas、Ira Kemelmacher-Shlizerman、Brian Curless和Steve Seitz.

一作Konstantinos Rematas

如果覺得這項研究和你胃口,可移步傳送門深入挖掘。

論文地址:

grail.cs.washington.edu

代碼地址:

github.com/krematas/soc

最後,效果視頻長這樣:

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態

推薦閱讀:

透明化體驗身臨其境——工博會系列之一
人工智慧商業化的重點:語音交互和人臉識別
語音交互電影《Her》與Siri的困境
Ian Goodfellow暢談,離散的失敗與連續的失敗
中國大智匯——人工智慧與人性的邊界

TAG:世界盃WorldCup | 人工智慧 | 計算機視覺 |