體育數據分析Sports Analytics從何開始？求建議

01-31

鄙人MBA在讀，幾番運作現在在幫學校的籃球隊做數據分析來改善球隊成績，Sports Analytic在米國職業體育發展比較熱鬧，但是NCAA特別是我們這種小學校預算有限還沒有做過。本著項目管理的經驗我已經把教練組的期待壓到了最低：「lets take this year as a experiment!」他們說。我和班裡的TEAM現在在腦暴中，求各路大神指點。我現在的想法是從最簡單的做起（畢竟他們什麼也沒有）， MLE multi regression把MODEL 做起來，鎖定KPI，然後再看缺什麼數據怎麼改進MODEL。我在Wake Forest, NCAA ACC Division I. 目前手頭有Synergy Sports2004到2013NCAA全部球隊到球員的每場數據統計。叩謝。

體育數據分析對我們來說是一個新興的產業，在美國比較成熟了。最近有一篇美國新興體育公司體育數據公司談數據是如何讓人們愛上體育的報道，希望對熱愛體育數據的人有所幫助。

新興科技正在改變體育產業。內華達州的體育數據分析創業公司Sharp Sports Analytics(SSA)接受採訪時表示，他們把對先進分析方法的獨特理解和對體育運動的深刻解讀結合在了一起，幫助體育迷們增長體育知識，使他們更好地理解比賽和各自鍾愛的運動隊。以下是訪談內容。

Q：請簡明扼要地介紹你們的項目。

A：Sharp Sports Analytics公司把對先進分析方法的獨特理解和對體育運動的深刻解讀結合在了一起。面對優質的數據我們有能力進行編程分析，而體育這一塊我們也已經與一些最好的橄欖球隊展開了合作。這種看待體育的獨特視角讓我們能更好地察覺趨勢、選取角度，使體育愛好者更深入地理解他們喜愛的運動隊。

Q：針對的問題與解決方案？

A：體育數據的有效性在過去十年里大幅增強，而當體育迷們想要解讀這些數據時發現自己孤立無援。我們能幫助體育迷們通過數據分析方法確定比賽勝負的根本原因，從而使他們更好地理解比賽和他們鍾愛的運動隊。我們的播客、博客、和其他工具提供了一個分析框架，與股票交易平台很相似，這能夠幫助體育迷們增長體育知識。

Q：市場——你們的目標市場和整體市場？

A：體育是一個很大的市場，這其中每一個想要讀懂體育數據的體育迷都需要懂得賽伯計量學（編者註：一種從棒球數據分析發展起來的體育數據分析方法）。此外，鑒於我們的模型的預測精準度，體育博彩群體也會對我們的產品產生強烈的興趣。

Q：商業模型——你們怎麼賺錢？

A：用大熱劇集《矽谷》中Russ Hanneman（編者註：劇中角色，一個玩世不恭的風險投資人）的話來說，就是「不賺錢」。這個概念就是，我們提供有深度的信息，體育界自然會發現這其中的興趣點和價值。只要持續生產有用的工具和信息，金錢方面不是問題。

Q：關於你們的項目，你們還希望讀者了解哪些？

A：Sharp Sports Analytics是大數據革命的弄潮兒。從自動化數據採集方法，到我們正在深挖的實時演算法，SSA走在這項技術的前列。WordPress和PostgreSQL等優質的開源程序讓我們運轉我們熱愛的項目更加方便容易。開源社區和對數據方法的深入理解，使SSA能夠在傳統企業架構之外追求自己的激情所在，這意味著我們可以為我們的用戶創造許多有意思的內容和工具。今年秋季，我們將會發布一些非常激動人心的事情。

＊本文轉自SportTechie - Sports Technology News

體育統計(Sports Analytics)其實只能說是機器學習（或者叫數據挖掘、模式識別）在體育背景下的應用。於是，如果你有興趣有需求搞體育統計，首先需要準備機器學習所必須的知識。

至於需要哪些知識？如果只是入門的話，你首先要把一些常用的機器學習演算法，例如線性回歸，線性分類（比如logistic regression），k-means聚類等，搞明白。這些演算法需要的知識並不多。

當然，為了解決回歸、分類、聚類問題，線性方法是遠遠不夠的，可以了解一些實用的非線性方法，當黑盒來應用，例如SVM，Boosting等。這方面我也推薦Stanford的公開課，Andrew Ng開的，可以去https://www.coursera.org/learn/machine-learning 或者 youtube.com 的頁面學習，當然stanford學校的網站上也有這個視頻課程，這個課程還有講義和筆記等資料，非常全，適合新手入門。

如果要深入一點了解的話，基本的數學基礎就必不可少了，概率論，微積分，線性代數都是很重要的，有了這些知識就可以嘗試看像MLAPP 這樣的機器學習經典書籍。

覺得我上面的回答不夠全面的話，知乎上的機器學習和數據挖掘分類都有不少經典問題和回答，不妨翻一翻。例如：

機器學習該怎麼入門？ - 機器學習

--------------------------------------------------------------------------

那麼回到體育統計的問題上來。

既然你主樓里提到的是籃球，那我也就多說兩句籃球。籃球統計這塊據我了解，實際上是兩堆人在做……一堆人是機器學習背景（或者類似背景）的人，一堆人是純粹的體育迷，愛好者。

很可惜，以籃球運動的複雜度來說，愛好者是基本不可能做出任何有價值的成果的。這項運動本身的邏輯不甚明了（相比美式足球和棒球），數據噪音大（聽過「張合理」的解說的應該都有第一印象，為什麼不合理的球常常會進呢……），於是需要一些比較精細的工具來進行分析才可能得到比較好的效果。

至於機器學習背景的人做的成果，很多成果我相信是並未公開的，因為各種各樣的原因。在公開的成果裡面，APM(Adjusted plus-minus)是一個比較好的成果，這項數據僅僅基於play-by-play data（在http://nba.com或者espn上都可以找到這份數據）來推算球員的整體表現。雖然說方法還是比較粗暴（Ridge regression以及用off-the-shelf方法做的non-linear model求prior）

具體的介紹可以參考 GotBuckets | What Are These Stats?

最近幾年籃球統計的發展有一個飛躍，因為SportVU的引入，這個公司（現在已經被STATS收購了）推出了一套系統，可以實時捕捉每次攻防每一秒球員和球的位置。可以參考：

https://lh3.googleusercontent.com/CSGV_1WJU4E9aaTF_daZnFgaUopvXtE5pXuqXdXgZOA=w600-h310-no

有了這個數據，籃球統計分析者們就不用再局限於信息很不足而且噪音很大的play-by-play data了，可以說讓大多數籃球分析的概念變成了現實的可能。

不過，還是那個問題，SportVU的數據分析需要的分析工具和機器學習知識的要求還是很高的。（用這玩意做分析的文章應該比較容易中ICML……）

先看看書嘛

--2015.02.07 update----------

這個小項目示範了如何預測和模擬NBA比賽

leerichardson/game_simulation · GitHub

我們導師要讓我運用大數據跟籃球結合，也是一頭霧水，希望能於題主交流

體育統計學是從棒球發展起來的，sabermetrics。從北美主流項目來說，棒球統計學最發達，橄欖球其次，冰球和籃球其實還是皮像肉不像的階段。棒球里有純靠數據成功組隊的案例（可以去看Moneyball這本書或者同名改編電影），其他項目還做不到。因為沒有證據能證明某一項數據與提高球隊獲勝幾率是正相關的。例如場均得分，一個得分很高的球員也許對球團作用是負的，因為他很可能佔用了過多的出手機會而削弱了其他球員的潛在得分。

2016 年，體育大數據產業的發展似乎走上了一條快車道。創冰科技、貝泰科技、SportsDT、量子足球等體育大數據公司得到資本的青睞，一方面說明了體育產業在細分方向的發展趨勢，另一方面也源於有可能放開的體育博彩所存在的巨大潛力。年末大大小小的論壇、發布會上，有不少關於體育大數據產業的內容，而在中超結束後，一時間也湧現出多份中超大數據報告與中超商業價值白皮書。然而中國的體育 + 大數據產業在一片熱鬧與喧囂中，卻也面臨著不少的問題。（看薦體育數據分析）

見圖，很清晰了。

對此感興趣，來向各位前輩學習！

對信息技術融入運動訓練很感興趣。如何結合在青少年的運動訓練當中，自己有過一些思考。但是覺得沒有形成體育數據的形式，很想學習一些案例和知識。

最近我也對這個很感興趣，我覺得有很大的potential，有興趣的可以一起交流一下

體育數據分析對我們來說是一個新興的產業，在美國比較成熟了。可以看一個案例：

圖文版：用數據解讀體育決策：挖掘體育賽事新價值

在互聯網時代，數據是最寶貴的資源，大數據引領傳統產業，催生新的活力。幾乎所有的產業都在擁抱了大數據，體育產業也與之密切相關，數據捕獲、存儲和分析技術的持續進步正在積極影響著體育行業的方方面面。

業務挑戰

體育運用大數據主要體現在以下三個方面： 預測比賽結果和獎牌歸屬；更好地訓練運動員。數據和模型驅動體育決策讓獲勝和成功變得更有可能，體育統計(Sports Analytics)成為體育競爭的「殺手鐧」。

具體服務

要在運動中有效地使用分析，我們要知道如何處理數據、識別數據源、收集數據、組織和準備進行分析、從數據構建模型。

tecdat從面向體育組織的諮詢工作中，推動「數據科學即服務」。最終，實施我們的想法和模式。

數據源準備

隨著網路的發展，數據來源豐富，有文本數據以及數字數據。通過爬蟲技術抓取網路並利用應用程序編程介面（API），可以從公共數據源中獲取很多信息。

構造

想要更好地了解在這些場景中大數據是如何進行預測性分析的，我們需要考慮在預測比賽時所需處理的數據性質。

首先確定關鍵指標，可用數據包括國別、賽事、成績、運動員姓名、年齡、過往表現記錄、賽場溫度、觀眾出席率、晝夜等。

劃分訓練集和測試集

確定指標後，把數據分成兩個子數據集，即訓練數據集和測試數據集。

數據洞察

球員薪酬情況

職業運動隊在勞動力市場上相互競爭，而明星球員的勞動力供不應求。薪資上限是保持競爭平衡所必需的,工資也幫助球隊限制球員的支出。

美國最專業的運動員有薪資上限。NFL隊的2016年薪金上限為5328萬美元，平均工資約為270萬美元。NBA球隊在16賽季的薪金上限為7000萬美元，球隊的薪金上限以服務年限。例如，擁有十年經驗的勒布朗·詹姆斯，最高工資為2300萬美元。安東尼·戴維斯的平均工資為2900萬美元，是NBA球員中最高的。2016年MLB的年薪最低為505,700美元。底特律老虎隊Miguel Cabrera（MLR）的MLB年薪最高為3100萬美元。

下圖顯示了2016年8月MLB，NBA和NFL的球員薪酬情況。

NFL球員的平均工資約為170萬美元，中位數為63萬美元。 NBA球員的平均工資約為510萬美元，中位數為280萬美元。 MLB玩家的平均工資約為410萬美元，中位數為110萬美元。同時可以看到明星球員的薪資遠高於普通球員，拉高了平均水平。

團隊支出和勝率的關係

從2016賽季初的團隊支出和在常規賽中勝率的關係圖中，我們可以看到團隊支出對是否能贏得比賽有直接影響。

出席觀眾和日期的關係

從中我們可以發現日期和出席情況的關係，從而找到用於預測和評估出席率的模型。

球隊實力表現

根據15年到16年NBA常規賽的20項指標進行綜合分析，我們對 NBA參賽球隊進行排序，評出最具實力的球隊。

建模

預測觀眾出席人數——線性模型

估計獲勝概率——蒙特卡羅模擬

當我們發現勝率符合經驗分布的時候,使用蒙特卡羅模擬方法來估計某個隊伍的獲勝概率。

預測結果

可以看出，預測值的趨勢已經基本與真實趨勢保持一致。

模擬結果

通過對比賽日雙方球隊的表現模擬，我們得到下面的獲勝概率熱圖，從ROC曲線的表現來看，模擬效果理想。

展望

除了以上列舉的一些方法，tecdat已經在嘗試更複雜的體育統計模型，如深度學習（Long Short-Term Memory網路、卷積神經網路（CNN））等；同時需要考慮到模型的可解釋性、可落地性和可擴展性、避免「黑箱」預測；還在嘗試採用混合的機器學習模型，比如GLM+SVR，GAM+ NNET等。

用數據驅動體育決策，這種看待體育的獨特視角讓我們能更好地察覺趨勢、選取角度，同時幫助體育愛好者更深入地理解他們喜愛的運動隊。

籃球我不是很懂，我看足球比賽的新聞時，有些統計數據，比方說跑動距離，控球比率，傳球次數，傳威脅球次數等等，我想你應該先統計下球隊比賽的數據，估計周期比較長，比賽多的話還好說。如果要用數據提高成績，我覺得應該和優秀球隊數據作對比，看自己球隊弱在哪。

可以看看MIT體育分析峰會

應用統計學專業，本人對體育數據分析很有興趣，但是能接觸到這方面的資源很少，期待體育數據分析在國內發展起來。

關注

不懂MBA，不一定要一開始就用回歸吧，先把基本的一些和球員、球隊有關的統計性的東西做起，然後再看看有哪些有價值的東西。

對於足球體育數據分析有興趣者，歡迎一塊兒研究哦～

http://facebook.com/scibrokes

http://jp.linkedin.c/in/englianhu

http://rpubs.com/englianhu

中國有沒有體育數據分析的公司???