手把手教你成為數據流懂球帝[足球篇]
註:本文由本文微信公眾號的同名文章修改而成。
最近人工智慧、大數據這一類的概念非常火爆,感覺就是市場賣菜也能和大數據扯上關係。不過,在一些領域,引入數據分析的話的確能發現很多有意思的東西。以體育領域為例,美國棒球職棒大聯盟奧克蘭運動家隊的前GM(現在是執行副總裁)Billy Beane及其Moneyball理念是較早為大眾所知的利用數據分析顯著提升球隊成績的案例。現在基於模式識別、機器學習的數據分析技術也逐漸擴散到體育界的各領域。我們大部分都是普通的球迷,沒有需要也沒有能力更沒有原始數據來源對實際問題進行專業的分析。不過對於一些生活中的數據控(如本人),更多的數據可以提供另一個角度的觀察。下面本文將會對足球領域一些基礎的數據來源:一、相關網站
1 Whoscored(https://www.whoscored.com/)
對於每場比賽,Whoscored都會有完整的數據統計:
這是球隊運動熱點圖
對於球員也會有相應的數據統計
Whoscored還會有一些個性化的內容,例如會列出來球隊和球員的特點
2 Squawka(Football Statistics, Live Scores, Results, News, Analysis)
Squawka上面的數據和Whoscored的數據基本類似,不過表現的風格不同
例如對於一場比賽的傳球
Whoscored會用點的形式表示
Squawka會把線路描出來
所以基本看自己的審美,從數據上來看是沒有太大區別的。這是因為Whoscored和Squawka的數據提供商都是Opta(Opta Home),他們拿到的數據都是基於與球的運動相關的事件,即ball event。對於每個ball event,記錄的是每個事件的種類(傳球、射門、撲救、鏟球)、發生坐標、結果、相關球員。基於這些數據可以生成常見的所有統計數據(控球率、射門次數等等),不過缺點就是沒有無球球員的位置數據,這也是為什麼現在很多人詬病數據分析無法揭示體育比賽實際情況的一個重要論點(關於這個問題,這個會在後面詳細說明。)
3 Sky Sports(Sky Sports - Sports News, Transfers, Scores)
光從能提供的數據的角度,天空體育肯定是比不上前面提到的兩個網站的,不過上面會有更多的新聞和評論向的文章。另外,Whoscored和Squawka的比賽解說是自動生成的,而天空體育的會有一些真實的解說文字,自行對比感受吧,不要問我為什麼會關注那麼奇怪的點……
二、科研paper
不是開玩笑,分析體育比賽還真能發paper……不過這需要專業的數據和研究方法。先說說足球這邊的。
從用到的數據來看,從早起的研究大多基於前面提到的ball event,後來隨著技術的發展,數據的收集範圍擴展到每一秒中每一幀球員和球的位置,這樣的話,只要技術達到相應的水平,對於無球球員的情況也是可以分析出來的。因此回到前面提到的那個問題,的確我們平時接觸到的都是一些簡單的統計數據,但不代表在非常專業的層面沒有分析諸如無球跑動、球隊陣型這些深層次內容的數據和方法,只不過普通球迷沒有辦法獲得而已。順便說一下,目前有這類數據的公司叫Prozone,已經被一家叫STATS(Sports Data Company)的公司收購,這樣子的話STATS就壟斷了世界上足球和籃球頂級賽事的數據來源,一般只有他們內部或是與他們有合作關係的科研機構才有機會獲到相關的數據。
對於足球,利用以上這些數據,可以做的東西有:球隊分類、球員之間傳球情況分析、下一時刻足球位置預測、射門結果預測、球隊陣型分析……在此不一一介紹,推薦一篇近期出來的review(終於要上文章了好興奮~),裡面主要介紹的是足球和籃球相關的,對於相關的文章介紹非常全面:
[1]Gudmundsson J, Horton M. Spatio-Temporal Analysis of Team Sports--A Survey[J]. arXiv preprint arXiv:1602.06994, 2016.
足球分析的話推薦一位大神Patrick Lucey(http://www.patricklucey.com/Site/Home.html),最近幾年在一些比較好的數據挖掘會議上關於足球的文章幾乎全是他的team發的,已經被挖到STATS做數據科學家了,所以說不定很快就看不到他的文章了。總不能在推送裡面講paper吧……所以大家有興趣的自己去他的主頁看就好了。不過(還是沒忍住……)推薦一下這篇:
[2]Bialkowski A, Lucey P, Carr P, et al. Large-scale analysis of soccer matches using spatiotemporal tracking data[C]//Data Mining (ICDM), 2014 IEEE International Conference on. IEEE, 2014: 725-730.
裡面講的是如何利用整場比賽所有球員的位置數據來估計球隊的陣型,下圖([2])是對某一年英超進行分析得到的幾種常見陣型,看著還挺像那麼回事的,像442,4231,433這些都能看到。另外根據陣型去猜具體是哪支球隊能做到75%的準確率也是相當厲害的(20支球隊,隨機猜的話只有5%的正確率)。
最後推薦一個會議,MIT Sloan Sports Analytics Conference(MIT Sloan Sports Analytics Conference),每年的三月份召開,會聚集很多學界和體育界的專業人士,可以投稿,被錄取的paper也會在官網上發布。
總結
在當前這個時代,各種各樣的數據充斥著社會生活的方方面面,體育比賽也不例外。對於足球領域(其實對於其他體育領域也一樣)來說,由於原始數據的稀缺性和壟斷性,我們很難直接得到可以分析的數據,但現實中仍存在很多資源讓我們去接觸和體驗分析足球比賽的方法,不管是直觀的可視化手段,或是嚴謹的科學研究。這些會給予我們另一個視覺去領略足球比賽的美。
以上。
推薦閱讀:
※3分鐘看懂足球 | 偽球迷入門指南 NO.6 英超
※在西甲射手榜上競爭如此激烈,梅西為什麼還把點球讓給內馬爾?
※格策和萊萬多夫斯基下賽季雙雙離隊,包括之前的香川,為什麼多特蒙德留不住人?
※如何評價2014年巴西世界盃哥倫比亞VS希臘的比賽?
※【Day of the Match】77年前的今天,一場神奇的比賽