點球成金——運動中的大數據分析
當我們可以精確記錄像足球和籃球這樣的團隊項目中運動員的運動情況時,我們應該怎樣使用演算法來分析這些數據並獲得有意義的見解呢?
邁克爾·劉易斯(Michael Lewis)的暢銷書《點球成金》(Moneyball)改變了人們思考運動的方式,特別是對那些有最大既得利益的產業所有者、管理者和運動員來說。他的書掀起了一場革命,人們從此可以以事實為依據去評價一名運動員的表現,而不是像以前那樣只是憑藉傳聞或者感覺。
從那時起,運動科學家開始嘗試在籃球、足球和橄欖球等運動中複製這種方法。現在科學家有能力在比賽進行過程中收集關於運動員和比賽本身的海量數據,這也促進了這門科學的發展。
然而,對很多運動來說,收集數據的能力和處理分析數據的能力並不匹配。由此就帶來一個有趣的問題:運動科學在有效地處理數據方面面臨著哪些挑戰?在這個快速發展的領域內還有哪些有待解決的問題呢?
如今,多虧了澳大利亞悉尼大學的喬基姆·古德蒙德森(Joachim Gudmundsson)和邁克爾·霍頓(Michael Horton),我們有了答案。他們回顧了這個領域的發展,同時列出了研究者們在有效分析數據方面所面臨的挑戰。
他們所考慮的比賽被稱作「侵略遊戲」(invasion game)。這些比賽共同的特點是,兩支隊伍在比賽場地內爭奪一個球的的控制權。每支隊伍的目標都是通過把球送進對方的球門來得分,同時要阻止對方得分。比賽最後得分最多的球隊就是勝利者。
具有這種特點的運動包括足球、籃球、冰球、曲棍球、英式橄欖球、澳式橄欖球和美式橄欖球等。然而,絕大部分的比賽數據都來自職業的足球和籃球比賽。這是因為研究人員有資源去收集這些比賽的數據。
這個數據通常包括整個比賽過程當中的運動員和球的運行軌跡,以及對傳球、射門和鏟球等特定數據的記錄。古德蒙德森和霍頓表示:「現在的追蹤系統可以提供運動員時空軌跡的高解析度、高頻率的記錄,這反過來也促進了橫跨各領域的多樣化研究,研究人員從這些軌跡中可以獲得新的靈感。」
運動科學中最大的挑戰就是運用這些數據來獲得有競爭性的優勢,無論是在比賽過程中,還是用來幫助提示訓練水平、做好賽前準備或者完成更明智的簽約。但是在研究人員已經取得重大進展的同時,這個領域內還是有很多重要的障礙需要去克服。
其中重要的一點涉及到理解運動員們如何止控制球場上自己周圍的區域。在運動科學中,運動員的優勢區域(dominant region)指的是他/她可以先於其他人到達的區域。計算優勢區域的一種簡單方法就是畫一張沃羅諾伊圖(Voronoi diagram),這個圖可以把球場分成緊靠每個運動員的多個區域(如圖所示)。
這樣一張圖還可以藉助其他信息來加以修正,比如我們觀察到進攻一方的優勢區域要比防守一方更大一些。
然而,計算球場上每名運動員的沃羅諾伊圖卻非常複雜。沒有人在實際比賽中做到過這一點,即使是在機器人足球世界盃中。
研究人員取而代之的是去計算一個不同的性質——在一個給定時間每名運動員可以到達的區域——然後再去尋找重疊的部分。這樣就使計算速度增加到原來的1000倍,不過在準確性上也會比原來降低10%。
但即使那樣,這個過程還是忽視了很多關鍵的因素。也許其中最重要的一點就是沒有將運動員們的動量(momentum)考慮在內。一個運動中的選手很明顯會比一個靜止的選手控制更大範圍的區域。
這樣會使球場變成複雜的細分網格。當運動員A向著靜止的運動員B跑去的時候,每個人可能有不止一個優勢區域,而這些優勢區域可能又不是彼此相接。舉個例子,動量使得B身後的部分區域成為A的優勢區域,但卻不是全部。
因此在運動科學中一個重要的有待解決的問題就是如何計算比賽過程中真實的優勢區域。
另一個挑戰是算出一名運動員是否可以接到傳球。這就意味著要確定是否存在某一速度和角度使得一名特定的運動員比其他人先碰到球。
這個很明顯與運動員的優勢區域有關。考慮優勢區域的精確定義,可以直接算出落在這個區域內的直線傳球。目前的工具也確實是這樣做的。
但問題是只有某些特定的軌跡符合直線傳球的標準。例如,軌跡在空中的傳球就不是直線傳球。現在還沒有可以處理這些軌跡的工具,包含球的自轉的更加複雜的運動就更沒辦法處理。這也是運動科學中有待解決的一個問題。
當一名運動員減少其他運動員周圍的活動空間時,他/她就會給他們施以壓力。這個應該如何被測量並在模型中加以考慮呢?
運動分析中一個正在變得日益重要的領域包含了網路科學。這種方法把每一名運動員都當作一個節點,並且當球在兩人之間傳遞的時候,就在兩人之間畫一條線。這是一個成果豐碩的研究領域,因為研究人員已經發展出很多種數學工具來分析網路。
例如,使用一種被稱作「中心度」(centrality)的測量標準就可以直接算出網路中最重要的節點。在足球中,守門員和前鋒的中心度最低,而後衛和中場球員的中心度最高。
網路科學還可以把網路分成不同的群(cluster)。這樣我們發現一些隊員也許只是相互傳球,而另一些則可以更好地配合。
然而,網路科學的問題在於測量中心度和劃分群有很多種方法,而且一種方法為什麼比另一種方法更好的原因也往往並不清楚。因此另一個有待解決的問題就是系統地評價和比較這些不同的方法,以確定它們的效用和價值。
另一類問題來自對比賽玩法數據的分析。比如說,我們是否有可能根據對比賽過程中一段時間內運動員運動軌跡和特定事件的記錄,來確定這支隊伍的類型——例如足球比賽中的4-4-2陣型,或者是防守一方的策略——例如籃球比賽中的全場緊逼或者區域盯人?
在某些運動的一段時間裡,這是可以做到的。但是達到或者超過解說員或者專家的分析水平仍然是前進的目標。
古德蒙德森和霍頓還描述了其他一些有待解決的問題,以及在足球和籃球這樣的運動中發展起來的思想如何可以有效地應用到其他的運動中,比如曲棍球和手球。
但是完善可以解決這些問題的演算法只是一方面,接下來研究人員需要考慮的是這些工具怎樣幫助提升運動員在場上場下的表現。它們能被用來當作衡量運動員表現和價值的標尺嗎?它們能確定一個在某支隊伍取得成功的運動員也可以在另一支隊伍同樣取得成功嗎?它們能夠在真實的比賽過程中發揮作用以幫助教練決策和觀眾欣賞比賽嗎?
在接下來的幾年裡這個領域很有可能會有顯著的進展,運動中的數據分析也會有更加光明的前景。
翻譯:鞠強
MIT Technology Review 中國大陸地區獨家授權,未經授權嚴禁轉載。官方微信公眾號:mit-tr推薦閱讀:
※阿里雲大數據計算服務MaxCompute在德國法蘭克福正式開服
※數據科學家的工具箱
※大數據學習計劃(不斷改善)
※又來搶大數據飯碗?AWS發布SageMaker:省略數據清洗、建模、調參等步驟
TAG:大数据 |