標籤:

美國橄欖球聯盟中裁判判罰方式的差異之數據可視化

引子

計算機最棒的一點在於,它們能夠將表格數據轉換成更直觀的圖形表示。常常令我費解的是,明明可以將數據轉化為圖形表達,但大部分人卻往往放棄了這個可視化機會。

例如,在 ESPN 上有一篇關於不同裁判判罰方式之間的差異的論文。這篇論文的數據相當有趣, 包含了顯示裁判判罰方式差異的數據。

然而,我發現了一件略為尷尬的事,作者企圖將表格數據可視化,但最後並沒有實現。這或許是因為作者不知道該如何對這些數據作出最好的可視化,來講述他的數據故事。因此,我決定幫他達到這個目的!

給定一個前提,假設裁判的判罰方式之間的確存在差異。基於這個前提,我們想要弄明白,他們的判罰方式的差異究竟在哪裡。

下面的數據是來自文章中的表格數據:

論文作者指出:

Jeff Triplette 團隊迄今總共判決出了 81 次判罰,比判罰次數僅次於他們的團隊高出 18 次,是另外兩個團隊的 2 倍多。

論文作者接下來便繼續談論了他與正在推銷新書的 Mike Pereira 的會面。

雖然上面的表格很有用,但它並沒有經過任何可視化操作,你看到了可能會問:「天哪,這到底說明了些什麼?」。直覺上來說,表格中的數據在有些地方不太對勁...但是我又說不清楚是什麼不對勁。

讓我們加總一下各個裁判團隊判罰的防守點球數(防守越位、侵犯和中立區犯規數),看看數據會變成什麼樣:

現在,我們可以看到這些數據可能向我們揭示了什麼,但這對偏好圖形的人來說,還是會有些理解上的困難。如果我們利用這些數據,生成散點圖,那就達到利用圖形來展示這個問題的目的了。我們可以通過以下代碼,繪出散點圖:

上圖中的藍色水平虛線表示裁判的平均防守罰球點球數,藍色豎直虛線表示裁判的平均侵犯判罰次數。灰色盒子表示由侵犯判罰次數和防守罰球點球數的 ( μ?2σ,μ+2σμ?2σ,μ+2σ ) 範圍形成的區域。

是不是發現了什麼?是的,我也注意到了。Jeff Triplette 團隊在圖上距離盒子如此之遠,簡直好像是他們裁判了一場假比賽一樣,不過也有可能是他們看了假的裁判規則。

我希望我真正能做到的是,按照比賽規則,依據相同的分析過程,能對任一場比賽給出相應的分析。我並不指望這些分析會對 Jeff Triplette 團隊以後的判罰方式產生什麼影響,但不管怎樣,這些分析向我們展示出了一些值得研究的異常數據點。

另外,你們能上我的 Github:github.com/miloardot/py 找到這個項目的全部代碼。

更多課程和文章盡在微信號:「datartisan數據工匠」

推薦閱讀:

「數據達人養成計劃」Live知識要點
初入數據科學職業時,要避免的9個錯誤
文章商品分類之數據標註

TAG:数据科学 |