國內體育運動在數據分析領域上發展如何?

例如籃球,足球等大球項目上有沒有像國外球會那樣設有數據分析師,對球員平時訓練和比賽都有專門收集數據的人員。


謝邀。

我說兩件事兒吧。

1.這陣子出了一CBA的APP。

跟那團隊的人聊過幾句關於CBA的閑話。

「哎。你們這CBA的數據。是官方給的吧。靠譜么?」

「嘿,可別說這個,人球員自己都不相信官方給出來的數據,也就給球迷看一看。」

「跟STATS那種級別差距有多大?」

「中國男籃跟美國男籃差距多大,這就有多大。」

2.中超在05年之前一直都是中超公司自己做聯賽的數據,也就是福特寶公司。

在這之後一個北京知名的圈內人士成立了一家專做足球數據的公司,在此就不點名了。

因鄙司最近在做中超的產品,跟他們有商務上的聯繫,最近在測試介面。

一般按照國際上的慣例,進球是被稱作「Goal」,做數據介面也應該是這樣命名的。

人數據公司給的數據介面,進球就命名為「JQ」,而且配套文檔極其之少,鄙司的技術總監就對著這堆簡寫研究了一下午。

「哎,啥叫QCWXCQ?」

回到題目。

在中國,各大的職業聯賽都是有相關的數據收集人員,這一般是由組委會提供的。

並且是極其不專業的。

他們在工作中經常會出現看見比賽發生了一事件但是記錄不及時的情況。

哪怕是CBA這樣級別的聯賽,依然是亂七八糟。

亂七八糟的程度是到了「假若你是真心喜愛這個聯賽,你看到他們數據整理和收集的工作時,你會為之感到挫敗。」


我在同濟體育部,這學期有開體育數據挖掘這門課,毫不猶豫的選擇了。


正打算出國讀體育表現分析碩士,等我兩年後讀出來,再回答題主四年前的問題吧


體育數據分析對我們來說是一個新興的產業,在美國比較成熟了。可以看一個案例:

圖文版:用數據解讀體育決策:挖掘體育賽事新價值

在互聯網時代,數據是最寶貴的資源,大數據引領傳統產業,催生新的活力。幾乎所有的產業都在擁抱了大數據,體育產業也與之密切相關,數據捕獲、存儲和分析技術的持續進步正在積極影響著體育行業的方方面面。

業務挑戰

體育運用大數據主要體現在以下三個方面: 預測比賽結果和獎牌歸屬;更好地訓練運動員 。數據和模型驅動體育決策讓獲勝和成功變得更有可能,體育統計(Sports Analytics)成為體育競爭的「殺手鐧」。

具體服務

要在運動中有效地使用分析,我們要知道如何處理數據、識別數據源、收集數據、組織和準備進行分析、從數據構建模型。

tecdat從面向體育組織的諮詢工作中,推動「數據科學即服務」。最終,實施我們的想法和模式。

數據源準備

隨著網路的發展,數據來源豐富,有文本數據以及數字數據。通過爬蟲技術抓取網路並利用應用程序編程介面(API),可以從公共數據源中獲取很多信息。

構造

想要更好地了解在這些場景中大數據是如何進行預測性分析的,我們需要考慮在預測比賽時所需處理的數據性質。

首先確定關鍵指標,可用數據包括國別、賽事、成績、運動員姓名、年齡、過往表現記錄、賽場溫度、觀眾出席率、晝夜等。

劃分訓練集和測試集

確定指標後,把數據分成兩個子數據集,即訓練數據集和測試數據集。

數據洞察

球員薪酬情況

職業運動隊在勞動力市場上相互競爭,而明星球員的勞動力供不應求。薪資上限是保持競爭平衡所必需的,工資也幫助球隊限制球員的支出。

美國最專業的運動員有薪資上限。NFL隊的2016年薪金上限為5328萬美元,平均工資約為270萬美元。NBA球隊在16賽季的薪金上限為7000萬美元,球隊的薪金上限以服務年限。例如,擁有十年經驗的勒布朗·詹姆斯,最高工資為2300萬美元。安東尼·戴維斯的平均工資為2900萬美元,是NBA球員中最高的 。2016年MLB的年薪最低為505,700美元。底特律老虎隊Miguel Cabrera(MLR)的MLB年薪最高為3100萬美元。

下圖顯示了2016年8月MLB,NBA和NFL的球員薪酬情況。

NFL球員的平均工資約為170萬美元,中位數為63萬美元。 NBA球員的平均工資約為510萬美元,中位數為280萬美元。 MLB玩家的平均工資約為410萬美元,中位數為110萬美元。同時可以看到明星球員的薪資遠高於普通球員,拉高了平均水平。

團隊支出和勝率的關係

從2016賽季初的團隊支出和在常規賽中勝率的關係圖中,我們可以看到團隊支出對是否能贏得比賽有直接影響。

出席觀眾和日期的關係

從中我們可以發現日期和出席情況的關係,從而找到用於預測和評估出席率的模型。

球隊實力表現

根據15年到16年NBA常規賽的20項指標進行綜合分析,我們對 NBA參賽球隊進行排序,評出最具實力的球隊。

建模

預測觀眾出席人數——線性模型

估計獲勝概率——蒙特卡羅模擬

當我們發現勝率符合經驗分布的時候,使用蒙特卡羅模擬方法來估計某個隊伍的獲勝概率。

預測結果

可以看出,預測值的趨勢已經基本與真實趨勢保持一致。

模擬結果

通過對比賽日雙方球隊的表現模擬,我們得到下面的獲勝概率熱圖,從ROC曲線的表現來看,模擬效果理想。

展望

除了以上列舉的一些方法,tecdat已經在嘗試更複雜的體育統計模型,如深度學習(Long Short-Term Memory網路、卷積神經網路(CNN))等;同時需要考慮到模型的可解釋性、可落地性和可擴展性、避免「黑箱」預測;還在嘗試採用混合的機器學習模型,比如GLM+SVR,GAM+ NNET等。

用數據驅動體育決策,這種看待體育的獨特視角讓我們能更好地察覺趨勢、選取角度,同時幫助體育愛好者更深入地理解他們喜愛的運動隊。


現在隨著中國市場的發展 人口越來越多喜歡體育彩票的人逐漸越積越多相對應體育這方面會越來越多 數據統計教練完全可以承擔下來 如果相對於的教練沒有這方面的能力他也許更不主以稱為教練


有市場


昨天上港守門員顏駿凌撲出點數後,便說出了教練是每場對對方點球的罰球人和罰球方向進行統計,並準確的分析出了對方外援德揚最喜歡射門的方向,最終成功撲出,並在韓國客場取得一場寶貴的勝利。


隨著體育彩票的發展,應該會有的


數據分析和統計這方面 都是教練員的任務。因為運動員平時訓練的各個方面問題或者成績增長 只有教練最清楚 如果這個教練不了解自己隊員的什麼情況 平時不做對隊員的記錄 那就是個很失敗的教練


這個數據問題,其實作為一名體育類的研究生,我覺得我可以說下,這個統計的過程還是有點複雜的,但是就是沒有一個軟體或者一個專門的系統來改變這個但是有很多項目都在用到數據統計,我們國家這方面做的還是可以的,有提高,但是不夠完善,如果可以有一個更好的更便捷的軟體或者什麼設備就好了,不用人工去統計會很節約時間


那讓洋蔥圈培養的記錄員去記錄如何?


我還以為中超的官方數據是由搜達提供的.....


推薦閱讀:

如何有效地進行數據挖掘和分析?
定性分析和定量分析的根本區別在於?
svm(支持向量機)的訓練時用到了一些核函數(kernel function),怎麼樣正確理解它們的作用?
如何通過已有數據對用戶畫像,標籤和分析?該產品核心問題在哪,如何落地?
國內的數據挖掘,大數據的案例有哪些?

TAG:體育 | 足球 | 數據分析 | 籃球 | 數據收集 |