手把手教你成為數據流懂球帝[籃球篇]
註:本文是系列文章的第二篇,因為最近太懶了,所以距離上一篇發布已經過去三個月了,如果希望了解足球相關的話題請看第一篇介紹的內容:
手把手教你成為數據流懂球帝[足球篇]
NBA官方網站和虎撲之類的就不介紹了。下面直接上數據相關的乾貨:
一 網站
1 綜合類
1.1 NBA官方數據統計(http://stats.nba.com)
NBA官方的數據統計網站,上面的數據非常齊全,除了常規的統計數據之外還會有一些進階數據。以某場比賽為例:
常規數據:
各種進階數據:
還有各種圖表:
對於球員個人也有類似的各種統計,而且已經有非常具體的投籃種類分布,
對於普通的愛好者來說這已經是令人髮指的地步了,裡面還有很多有意思的東西值得好好發掘。
1.2 Basketball-Reference(http://www.basketball-reference.com)
Sports-Reference也是一個非常權威的體育數據統計網站,籃球數據只是其中的一部分。裡面的數據也非常詳細,感覺和官方的數據統計各有千秋。
除了NBA的數據外,Basketball-Reference還有關於NCAA的數據統計,雖然統計的詳細程度不如NBA的數據,但也有相當多的內容可以深挖。1.3 ESPN(http://espn.go.com/nba/)
ESPN上面也會有相關的數據統計,不過個人覺得詳細程度不如前面兩者,另外上面會有霍林格大神的一些指數分析:2015-16 Hollinger NBA Player Statistics - All Players(http://insider.espn.go.com/nba/hollinger/statistics)。
2 選秀類
上面主要一些綜合類的統計網站,如果要關注選秀相關話題的話題有以下網站推薦:
2.1 DraftExpress(http://www.draftexpress.com)
在選秀方面感覺DraftExpress的資料最齊全,除了模擬選秀、球員經紀人、歷史選秀等各種跟選秀相關的信息外,最重要的是上面有歷年選秀的體測數據:
2.2 myNBAdraft(http://www.mynbadraft.com/)
2.3 NBAdraft(http://www.nbadraft.net/)
其他的一些選秀相關的網站
3 其他
82games(http://www.82games.com/index.htm)
NBAsavant(http://nbasavant.com)
以上是本巫自己平時發現的一些資源,此外還有知乎上相關問題的答案總結得也很好,
在哪裡能看到全面細緻的 NBA 數據統計? - 回答作者: 巴巴羅莎
二 數據收集工具
1 py-Goldberry(https://github.com/bradleyfay/py-Goldsberry)
py-Goldberry是github一個非常有名的收集NBA相關數據的包,數據來源就是前面提到的http://stats.nba.com。裡面好多數據都可以直接通過這個python包獲取,在這些數據的基礎上可以做一些有意思的事情。
這個包是以Kirk Goldsberry大神來命名的。關於Goldsberry大神在下面的章節還會有更詳細的介紹。
三 進階內容
1 March Machine Learning Mania
從2014年開始Kaggle上面每年都會舉行對NCAA瘋狂三月的比賽結果預測大賽。地址如下:
https://www.kaggle.com/c/march-machine-learning-mania
https://www.kaggle.com/c/march-machine-learning-mania-2015
https://www.kaggle.com/c/march-machine-learning-mania-2016
這個比賽除了組織方使用的原始數據之外允許參與者使用自己通過其他途徑收集到的數據。所以可以看到各路愛好者各顯神通,不過從今年比賽公開的方法來看額外的數據源和處理方法已經開始穩定,還是期待明年能有更新穎的方法出來和自己能取得更好的結果。此外有趣的地方還有:
1)、預測的是NCAA季後賽的結果,但是每個賽季只有63場季後賽的樣本,歷史數據太少很難建立複雜的模型,常規賽數據雖多但和季後賽差異很大,所以如何對常規賽數據進行處理使得可以基於處理後的常規賽數據建立可以預測季後賽的模型是非常關鍵的;
2)、測試集實在太小了!太小了!!太小了!!!一個賽季也就63場季後賽,因此最後結果的隨機成分還是很大的。一命二運三風水,四積陰功五讀書。把模型訓練好之後還是能排在前面的,但是能不能拿冠軍就看命了。
另外從每年參賽者裡面時不時能發現一些現實中做體育數據分析的牛人。在2015比賽裡面排21名的這位是專業的體育數據分析師,還在火箭隊任職過。
下面是他的github,裡面有不少乾貨
https://github.com/octonion
2 MIT Sloan Sports Analytics Conference(http://www.sloansportsconference.com/)
每年的三月份召開,會聚集很多學界和體育界的專業人士,可以投稿,被錄取的paper也會在官網上發布。因為有業界人士的參與,所以本巫覺得裡面的paper還是值得一看的,像Patrick Lucey 和Kirk Goldsberry各路大牛都在上面發表過文章。
3 相關研究和論文
首先還是推薦一下這篇綜述,下載地址請點這裡
[1]Gudmundsson J, Horton M. Spatio-Temporal Analysis of Team Sports--A Survey[J]. arXiv preprint arXiv:1602.06994, 2016.
裡面的籃球部分同樣總結得很好。
另外重點推薦一下Kirk Goldsberry的工作,大家可以自行搜索。下面會簡單介紹有代表性的成果:
[2] Miller, Andrew, et al. "Factorized Point Process Intensities: A Spatial Analysis of Professional Basketball." ICML. 2014.
這篇文章首先建立了一個隨機過程來描述球員投籃出手位置的分布,然後對分布矩陣進行分解得到一些出手位置的基礎模式(下圖出自原文,下同):
從上面可以明顯看出來籃下強攻,中投,三分等出手位置的區別。另外文章裡面對比分析的兩個球員是:要知道這篇文章大概成稿於2014年1月,結合即將到來的總決賽搶七大戰,頗有一種預言成真的宿命感。
不少工作是基於對某一類事件(投籃、籃板……)的統計角度的,沒有考慮事件之間的序列關係,不過也有工作是基於事件序列的,比較經典是這一篇:
[3]Yue, Yisong, et al. "Learning fine-grained spatial models for dynamic sports play prediction." 2014 IEEE International Conference on Data Mining. IEEE, 2014.
裡面主要討論了球在運轉過程中影響球員傳球/投籃選擇的因素,包括球員的位置等。下圖就表示了在圖中站位情況下獃獃不對鄧肯各種可能選擇的可能性預測(藍線是傳球、黑線是投籃,越粗可能性越大)。我覺得作者一定是個老司機,獃獃、我科、薩克雷、慈世平、皇阿瑪全在裡面,儼然NBA吐槽圈的半壁江山。
總結
可能是因為籃球在美國比足球要火,所以感覺普通球迷能接觸到的跟籃球相關的數據分析資源比足球要多,當然也有可能反映的只是民間愛好者的熱衷程度,畢竟NBA各大俱樂部和歐洲五大聯賽俱樂部也不會輕易把數據和分析成果輕易流出。
預告
下周就是NBA的選秀了,選秀結果出來之後本巫會用一些基礎的技術來對各新秀新秀賽季的表現做一個預測(希望最後不要被打臉),敬請期待。
推薦閱讀:
※從頭學習大數據培訓課程 NOSQL 資料庫 hbase(五)讀取 hbase 的 hfile 文件並生成 hive 使用的 orc 文件
※Linux大數據開發之Shell編程基礎
※如何利用八爪魚,實現餐飲大數據(以辰智商圈秀為例)
※FOFA小技能 看我山裡老農如何薅WordPress收費主題
※《數據架構》閱讀筆記(九)作業分析1