體育數據可視化,你想知道的方法都在這裡!
來自專欄鏑次元1 人贊了文章
體育數據可視化是體育新聞和體育競技中的重要技術。上回我們說到,體育數據可分為一維體育屬性統計數據,體育屬性和時空屬性結合的多維數據等。已有的工作主要有體育數據新聞、體育數據分析、可視分析系統。
在今天的推送中,鏑次元將帶你了解體育數據可視化工作中採用的基本方法還有體育數據可視分析的基本思路。
本文選自雷輝、勞天溢、劉真、左伍衡、陳為在《計算機輔助設計與圖形學學報》發表的論文《體育數據可視化綜述》,已得到原作者的授權。
體育數據可視化方法
如今已有不少關於體育數據可視化的工作。根據可視化的目的不同,使用的可視化方法也不盡相同。體育數據可視化的方法類似於一般可視化的步驟,包括數據獲取、數據過濾和可視表達這幾個步驟。
基於時空角度
技術統計數據的可視化方法
技術統計數據的可視化方法根據統計數據的不同,具體的可視化方法千差萬別。通常會根據數據的屬性選擇較好的呈現方式,並輔之以良好的交互手段。
圖 6a所示系統中,教練通過觀察守門員的比賽表現,將其與其他守門員進行比較,從而提供專門訓練。手腳、軀幹的顏色表示該身體部位的表現是否良好,表現越好,顏色越接近綠色;反之,顏色接近紅色。此外,球員的角度表示整場比賽撲出球的個數,從而反映球員的整體表現。
圖 6b所示系統也是類似的方法,球員身體部位的顏色表示該球員該部位的表現,例如手臂的顏色反映出左邊的球員在擲界外球方面要比右邊的球員出色; 而足球的高度表示球員的控球水平,球的顏色表示球在該球員腳下的安全性。以上兩個都是球員身體素質統計的數據可視化。
圖 7a表示的是 NTL 每個不同位置的球員在 2014 年的薪資水平。
圖 7b表示的是 NCAA 球員 2014 年 19 周內的排名變化情況。以上兩個都是球員數據可視化。
技術統計數據和空間數據結合的可視化方法
大部分體育比賽都是在一定規模的場地中進行,球員位置和事件產生位置等都是至關重要的數據。因此僅對技術統計可視化可能會遺漏掉重要的信息。技術統計數據和空間數據結合的可視化方法能夠對比賽場地進行等比例的簡化繪製,並且將技術統計數據繪製到對應的空間位置上。
圖 8a用散點圖表示籃板球的分布情況。
圖 8b表示進攻籃板在籃下區域的分布比例、顏色編碼比例的高低。
圖 8c用熱力圖表示了投籃位置的概率分布,六邊形的顏色則表示防守時對方球員的效率值。
圖 8d所示,根據滑鼠的位置可以在場地上實時可視化該位置投籃後籃板球所在的位置和 概率,該圖中扇形區域表示籃板球可能的位置,顏色的深淺表示概率。
圖 8e用輻向熱力圖可視化了射門距離的式樣,表示不同球場中不同距離的位置上射門事件發生的頻率分布,顏色越深表示射門事 件發生越頻繁。
圖 8f是 ESPN 上對匹茲堡企鵝隊和紐約流浪者隊的比賽,主隊事件標註在右側,客隊事件標註在左側;其中每個事件都有特別設計的標誌,其利用和球隊對應的顏色繪製事件發生的對應位置。技術統計數據和空間數據結合的方法能反映出比賽場地上不同位置的屬性,從而有助於教練、球隊管理者或者比賽分析師針對不同位置帶來的屬性差異,發現優勢或者短板並調整策略。
技術統計數據和時間數據結合的方法
如果採用技術統計數據與空間數據的方法展示比賽,用戶並不能從可視化結果中看出比賽的發展趨勢。 然而技術統計數據和時間數據相結合的方法就能很好地反映比賽過程。 基於對整場比賽或者比 賽中某個時間段的賽況的可視化,有利於幫助用戶分析比賽進程的動態變化。
1) 趨勢可視化 體育可視化使用的時間概念已經對時間做了一定程度的簡化,它將客觀事件發生的時間作為規律的時間單元進行處理,這種可視化方法能夠反映比賽的趨勢。
圖 9 所示 TenniVis 可視化系統用餅盤圖展示比賽全過程,顯著地提高用戶觀看比賽的效率。在餅盤圖中,每一塊代表一局比賽;視圖的主體部分隱喻常見的量程錶盤,通過指針偏向能夠發現這局比賽的走勢。指針越往上偏,則表明選手 1 在這局中贏得越輕鬆;指針越往下偏,則表明選手 2 在這局中贏得越輕鬆。綠色表示比賽局勢偏向選手 1,紅色則相反;實心表示是好球(制勝球、Ace 球等),空心表示是壞球(非受迫性失誤、雙發失誤);選手 1 的信息列在視圖的上半部分,選手 2 的信息在下半部分。
某局比賽的餅盤圖的生成過程如圖 9a 所示,最後只保留指針划過的扇形區域。其實餅盤圖的生成過程正是技術統計數據和時間數據相結合的結果,雖然這種處理方法只是將一個發球局中所有得分的時間間隔用疊加的扇形規律表示,然而起到反映比賽走勢的作用。
圖 9b 中,多個比賽的單元組合即可反映出更長比賽時間內的走勢。對時間精度要求不高的體育數據可視化而言,這是一種十分簡潔有效的方法。
2) 實時可視化 實時可視化是將實際的比賽時間或有效比賽時間真實地還原到時間軸的可視化,這樣的可視化能夠精確地還原比賽進程。
MatchPad 是一個完全實時展示賽況的可視化系統。如圖 10 所示,它是一場橄欖球比賽中一個 17 min 時間片段的可視化結果。其中水平中線表示的是時間軸,與實際比賽時間成比例;主隊在中線上方用紅色表示,客隊在中線下方用藍色表示。比賽中的重要事件都通過有意義的標誌來表示;其中藍色和紅色的柱形區域表示橄欖球的相位移動情況,寬度表示時間跨度,高度表示移動的遠近;橫向的時間跨度中一部分用淺綠色作為背景,這部分表示的是有效比賽時間,底部有詳細的信息描述面板。
對體育比賽數據實時可視化不但可以更加精準地反映比賽發展情況,而且還能發現比賽中某些隱藏的狀況,這非常有利於更進一步的專業體育分析。
技術統計數據和時空數據結合的方法
1) 軌跡可視化
對於體育數據分析而言, 比賽的軌跡繪製不容置疑是非常重要的。 在球類比賽中,球的軌跡或者運動員的軌跡都能夠反映出動態規律,通過對重要軌跡的分析可以掌握重要的比賽和球員線索。
軌跡是結合時空數據將位置信息根據時間先後繪製並連接形成軌跡。圖 11 所示從一個斯諾克比賽視頻中產生的可視化結果,結果展示比賽中每個擊球事件。重要性通過軌跡的粗細來表示,越粗表 示越重要;事件發生的順序通過球上的數字來標註;圖中所示的軌跡清晰地表示該視頻中的幾個主要擊球事件。
圖 12 所示 SoccerStories 是探索分析足球比賽各個階段的可視化系統,它將一場足球比賽分解為 多個階段,對每個階段進行可視化表示,並以此作為一個切入點。
SoccerStories 設計一系列可視化形式表示足球動作,對應不同的動作組設計不同可視化形式,將其作為預先定製的可視樣式。這些動作組構成了足球比賽的多個階段,可採用時空流的形式把順序發生的動作組在足球場上連接出來。圖 12a 繪製球的一些階段移動,圖 12b 將其中的一個階段映射到球場上;圖 12c 通過將一些相鄰動作編組,用預先定製的可視樣式表示該階段;圖 12d 則根據圖 12c 輸出圖文混合的信息文本。
軌跡可視化對於分析比賽重要階段的變化情況具有重要的意義。像足球、籃球比賽往往包含很多精彩的進球時刻和遺憾的失球時刻,將這些階段的軌跡可視化可以有效分析成功或者失敗的原因,這對提高球隊成績和球員技術有很大的幫助。
軌跡作為一種特殊的時空數據可視化,其實是根據前後關係順序地連接位置信息,是一種非顯著時間特徵的時空數據可視化。
2) 再現比賽
圖 13 展示的是一個在線冰球追蹤系統,它可以重現一場體育比賽;該圖是科羅拉多雪崩隊和新澤西魔鬼隊一場比賽的可視化。通常低精度的重現可以作為一種更生動的圖文直播;高精度的再現則可以做到對體育比賽的完全掌握和分析,它具有強大的分析能力。 在一場冰球比賽中,這個系統可以實時地顯示球場上發生的事件,新的事件通過特定標誌表示,顯示在球場上的對應位置以及下方的時間線上。
多種方法結合
以上方法也可以結合運用在一個系統。例如,整體上採用一種再現比賽的可視系統,查看局部數據時則輔以簡單可視化或技術統計和空間數據結合的可視結果。這種多元層次的可視化方法比一般方法更為有效。
基於球員的方法
體育運動中,球員個體、球隊全體球員以及相互協作的多個球員皆可以作為可視化對象。 尤其在 需要團隊協作的比賽中, 針對多個球員的可視化對於理解比賽事件具有尤為重要的作用。
單個球員
單個球員的可視化可以使用此前介紹的各種時空可視化方法,只不過對象是單個的球員。
圖 14 所示為 AI Jefferson 在籃球場上投籃位置的可視化;其中,每個小方塊表示該球員在該區域的投籃出手情況;方塊的大小表示出手的次數,次數越多,則方塊越大。
多個球員
對於多個球員進行可視化雖然可以使用此前介紹的時空可視化方法,但是也可以利用其它不同的方法。這包含球員整體中某項數據的簡單可視化;針對多個球員某屬性的縱向比較可視化;針對球員之間的相互關係的可視化;以某球場階段為主要對象,對於涉及到該階段球員表現的可視化,通常多個球員之間的動作會有前後關係或者協作關係。
圖 15a 將聯賽中的所有球員數據進行簡單的疊加,展現整體的投籃屬性。
圖 15b 是對多個球員速度曲線的縱向比較。
圖 15c 的傳球網路表示在一個球類比賽中特定的時間內球員之間的傳球關係。
圖 15d 的 SoccerStories 系統將多個球員之間的配合連接起來。
體育數據的可視分析
根據體育數據可視化的目標對象不同,可視分析的目標也有所差異。概括來講,大部分可視化系統的分析目標主要包括比賽趨勢概覽、球員表現、球隊表現、球員和球隊之間的表現比較以及行為的預測和更正等。
關於比賽趨勢概覽、球員表現、球隊表現等目標,應用此前的可視化方法對可視化的結果進行觀察比較,基本可以較好地滿足分析需求。
關於球員和球隊之間的表現比較等目標,由於涉及到了多個球員和球員群體,分析方法稍顯複雜,通常會應用基於移動和集群分析的方法。關於行為的預測和更正等目標,還涉及到機器學習、人工智慧等領域的知識,通常會應用基於特徵檢測的方法;目前其也正處於發展階段。
基於移動和集群的分析
對於足球和籃球等需要群體戰術策略的運動,分析一場比賽中單個球員的某項屬性和球員群體的屬性都十分重要。
通過基於移動的分析,既可以觀察某個球員的運動模式,也可以比較球員之間的運動模式差異。圖 16 所示系統通過分別繪製中場防守球員在某段時間內的運動軌跡,分析他們在比賽中表現;通過檢測到的相位為軌跡上了顏色,而速度的特徵則在下方的曲線圖中顯示。 從他們的移動特徵和相位顏色觀察,可以發現 2 個人的表現很相似。
通過基於集群的分析能夠發現更多大型球類比賽的規律,像球員陣型和球隊陣型都是十分重要的分析對象。圖 17a/17b 是關於橄欖球比賽場景的可視搜索系統,它可以提供基於草圖的移動模式查詢。該系統利用對視頻分析解壓得到的數據,基於球員配置和他們在比賽中的移動,尋找和繪製與草圖路線最接近的球隊移動模式。對於想要分析球隊陣型與移動模式的用戶來說,由此來尋找和草圖移動模式相近的球隊,將會大大降低人工搜索的成本。
基於特徵檢測的分析
通常,一場比賽的精彩部分只是很短的時間段,因此在時間有限的情況下許多體育迷們往往只挑選精彩片段來觀看。另外對於比賽分析師來說,比賽的「重要時刻」更是彌足珍貴。一種查找「重要時刻」的常用方法是使用人工標註,它的優勢是包含人類的知識見解,但同時也會耗費較多的時間精力,而且不能保證檢測出所有的「重要時刻」。鑒於此,可以在體育分析中運用特徵檢測,它將定義和訓練分類器運用到神經網路、決策樹、概率模型和支持向量等,使分類器找到分析師需要的「重要時刻」。
如圖 18 流程圖所示,Janetzko 等希望定義和訓練一個分類器來告訴人們哪裡有射門得分事件以及哪裡沒有。 他們使用 KNIME 作為數據挖掘框架,並用 WEKA 聚類集成。 首先建立一個 KNIME 工作流並且將它集成到分析過程中去,再把時間系列數據分成指定長度的間隔;其中有時間間隔是種類 A,其它為種類 B。 經過處理之後把所有可用的 KNIME 和 WEKA 分類器用 33%的數據樣本訓練,剩餘的 67% 用來檢測。 他們將轉換過的足球數據輸出到 KNIME 工作流中,完成訓練並評估分類器後將結果輸入回原型。 很多之前沒有標註的新射門事件被分類器探測。
圖 19顯示分類結果,其中綠色表示正確找到的事件,紅色表示沒有找到的事件,黃色是可能有意思的事件。
最後由分析師判斷和確認新找到的射門事件,將正確的事件進行標註。通過不斷訓練和優化分類器,不僅可以幫助分析師找到遺漏的「重要時刻」,而且未來也很可能做到「重要時刻」的半自動檢測甚至自動檢測。
結 語
當今社會,體育數據可視化已經成為信息可視化領域的重要研究和應用方向。本文在研究體育數據的基礎上,總結了當前體育數據的可視化方法和可視分析方法。偏向「數據新聞」的體育數據可視化可以更好、更形象地講述比賽和故事,枯燥的文字直播將不復存在。未來的可視化也可能會結合 3D 技術、全息投影技術,在展示形式上有巨大的突破。
隨著可視化技術和視頻追蹤技術的進步,未來的可視化系統將更加完善。面向專業分析師的可視化系統不僅能夠實現對比賽過程的實時再現,還能自動分析並呈現用戶感興趣的時段,對單個球員、多個球員、球員之間相互協作的分析也找到了高效且專業的方法。
結合機器學習和人工智慧等手段,系統可以根據以往的數據集對未來的行為作出預測,既有助於解析對手的策略,也能夠對球隊內部的不安定因素做出預判。未來可視分析系統將會成為專業體育領域不可或缺的工具。
作者:雷輝、勞天溢、劉真、左伍衡、陳為
作者簡介:
雷輝,長沙理工大學電氣與信息工程學院
勞天溢,浙江大學 CAD&CG 國家重點實驗室
劉真,杭州電子科技大學計算機學院
左伍衡,浙江工業大學教育科學與技術學院
陳為,浙江大學 CAD&CG 國家重點實驗室
做圖表,找數據,看文章,就用:鏑數 www.dydata.io
關注公眾號也可以獲得更多關於數據圖表的知識和可視化的乾貨喔!(鏑次元數據:dyclub-org)
推薦閱讀:
※自傳1——初級數據分析之旅
※中國糖尿病及併發症發病風險數據分析報告
※數據分析18 – 試驗設計01
※Python數據分箱,計算woe,iv