NBA選秀十年記【2】—尋找相似的新秀

這一期要和大家分享的是:如何在不同的時空里,尋找類型相似的新秀;給定一個新秀,快速找到他的選秀模版。

因為最近在做NBA選秀的專題,所以本巫特地看了今年選秀大會的各種分析,然後發現除了森林狼可能選中的幾個新秀,自己一個都不認識。

機智的本巫很快發現一個不用翻數據看球探報告也能大體理解新秀的方法:看球員的選秀模版。

比如,如果之前本巫和身邊的小夥伴交流今年的選秀。

「卧槽德揚泰-戴維斯居然掉到第二輪,灰熊這會賺大發了」

「德揚泰-戴維斯是誰,沒聽過……」

「……」

如果活用選秀模版的話……

「卧槽德揚泰-戴維斯居然掉到第二輪,灰熊這會賺大發了」

「德揚泰-戴維斯是誰,沒聽過……」

「這你都沒聽過,選秀模版是伊巴卡呀」

「卧槽灰熊的確賺了呀」

雖然現實是這樣子的……

「卧槽德揚泰-戴維斯居然掉到第二輪,灰熊這會賺大發了」

「德揚泰-戴維斯是誰,沒聽過……」

「這你都沒聽過,選秀模版是伊巴卡呀」

「伊巴卡是誰,沒聽過……」

本巫收集了近十年來共600位入選新秀的相關數據,其中具體的順位、場上位置來自NBAdraft(nbadraft.net),體測數據來自DraftExpress(draftexpress.com),新秀在大學時期的數據來自Basketball-Reference(basketball-reference.com)。

對於每位需要研究的球員,通過以下特徵描述:

此外在數據處理方面:

1)如果某個新秀在某一維度上的數據缺失,會用同樣位置全部新秀在對應維度上的均值代替。

2)考慮到大學期間表現的特徵佔了超過一半,所以只留下了有大學數據記錄的448名新秀,所以下面的分析是肯定不包括國際新秀的。

3)由於不同特徵的單位不一樣,所以最後在涉及到具體運算時會把每個維度的特徵標準化(減去均值除於樣本標準差)。

以上共有18個維度,無法直接可視化,所以通過t-SNE演算法將其降維到2維(大體原理是用2維來代替原來的18維表示,使得數據點仍能儘可能保持原來的距離關係)。按位置分類結果如下圖:

(搖擺人統一選擇靠前的位置,即PG/SG(雙能衛)算成PG(控球後衛),SG/SF(鋒衛搖擺人)算成SG(得分後衛))

可以看到場上不同位置的新秀在體測和大學數據方面會出現顯著的分布差異,這也是符合預期的。而為了得到更好的結果,經過實驗之後本巫增加了場上位置相關特徵。其中對於原有特徵的處理方法不變。對於場上位置特徵:單位置球員相應位置取值為1,其他為0;搖擺人相應兩個位置各為0.5,其他為0。

採用新特徵的分布如下,原來結果基本一致:

如果把標籤改為參選年級(Fr:大一、So:大二、Jr:大三、So:大四):

可以看到各個年級的新秀分布還是比較均勻的(分析的特徵的本身並沒有加入年級信息),不過可以看到左邊的上半部分幾乎沒有大一新秀,那麼這一片區域代表什麼類型的新秀呢,後面會有詳細的分析。接下來分別按照場上位置對一些比較有特點的球員類型和在圖上的分布作分析介紹。

後衛篇

—技術控、地板流和肌肉男

在後衛群里,可以發現幾個典型類型,在上圖中有標註(類別名是本巫根據特點起的,下同):

精英得分手

代表人物

這一類的特點就是得分能力非常強,但是其他能力一般。值得一提的是現在開拓者的後場雙槍—利拉德和邁克勒姆,雖然身高一般,但他們兩個的強壯程度和運動能力在裡面是最強的,高於後衛的平均水平。而且邁克勒姆在選秀的時候就被稱為「小利拉德」,從各方面的看他們的確非常像。

另外這一類剛好處在前面提到的幾乎沒有大一新秀的區域。本巫認為是因為只有經過長期技術的打磨,身體素質不是特別逆天的球員才能稱為精英級的得分手吧。不過在NBA發展的話身體素質還是很重要的:從發展軌跡來看,發展得最好的還是裡面身體素質最強的開拓雙槍,雷迪克雖然能成為季後賽球隊的首發都遠遠不是當家球星,弗雷戴特更是早已泯然眾人。

身體流後衛

代表人物

這一類後衛的典型特點就是身體素質非常好,未必很高但是臂展長、強壯,運動能力強。憑藉出色的身體,雖然技術沒有經過充分鍛煉,在大學期間數據表現也不是特別出色,但也能能以比較靠前的順位加入NBA。有意思的是血布和布拉德利剛好是同一年相鄰順位被選中,而他們之後的發展呈現著不同的軌跡;血布憑藉犀利的突破成為相當優秀的攻擊手,防守也是水平之上的,布拉德利在凱爾特人成長成為頂尖的外線防守尖兵,一次防守二陣一次防守一陣,不過他們兩個的投射能力都較弱。

地板流指揮官

代表人物

這一類後衛助攻能力非常強,威廉姆斯和馬紹爾在這十年所有新秀裡面每分鐘平均助攻排名前二,但除了助攻之外的所有指標都顯著低於後衛平均水平。此外地板流也是有來歷的:從體測數據來看,威廉姆斯運動能力太差,馬紹爾太瘦弱。而威廉姆斯和馬紹爾的發展也不是特別好,從來沒有穩定地成為某支球隊的主力。

小前鋒篇

—復古VS潮流

精英得分手

代表人物

這一類跟後衛裡面的精英得分手非常像,在圖上的位置也很相近。不過找到的代表人物裡面並沒有像開拓雙槍那樣身體素質也不錯的,而且這幾名球員在NBA發展也只是平平,不過後兩個14年的新秀還是可以再期待一下的。另外不知道和本巫差不多大的老球迷是否還記得亞當-莫里森,當年他和雷迪克在還是大學生的時候就進入了美國隊的大名單。雖然發展一直不如預期,但莫里森當時有非常嚴重的糖尿病,每場比賽都要注射胰島素,這種打針也要上場比賽的精神還是很令人敬佩的。

全能小前鋒

代表人物

這類球員比較符合這個時代我們對頂級小前鋒的認知:身體條件出色,全能。這樣的球員潛力很大,不過也容易各方面都沒練出來然後就水掉了。不過這次找到的幾個模版發展還可以:喬治已經證明了自己,而且受到這麼嚴重的傷病復出還能打出巨星表現,這身體素質也是逆天了;TJ-塔克雖然一度流浪,但現在在太陽也是比較穩定的主力;波特和威金斯還需要繼續觀察,不過目前的勢頭都不錯。

到這裡其實已經可以大體看出分布的規律了:在這個形狀(流形)裡面,上半部分代表得分能力比較出眾的,下半部分代表身體素質比較優秀的,整體從左往右還有從控球後衛到中鋒的演變趨勢。

大前鋒篇

—野獸派VS文藝派

暴力型大前鋒

代表人物

這類球員就是身體素質勁爆,最典型的「半獸人」法里德和阿米奴,在各自所在場上位置裡面身體素質都是翹楚。米爾薩普雖然速度一般,也不高(2.03米,體測數據好像不到兩米……),但噸位非常足。所以這些球員在大學期間無論在得分、籃板、蓋帽這些可以依賴身體的方面都明顯超出平均水平。

技術型大前鋒

代表人物

這一類大前鋒在身體素質的某些方面存在缺陷,不過技術較好,所以進攻能力較強。不過由於身材的先天劣勢,在防守和籃板方面的表現不好。

中鋒篇

—矛與盾

防守型中鋒

代表人物

一開始本巫直接想到的名稱居然是「典型中鋒」,後來發現其實所謂的「典型」應該是針對這幾年中鋒的特點來說的:防守能力強,不僅能護筐最好還具備一定的移動協防能力,進攻的話能在籃下撿撿漏和偶爾空中接力一下就好了。而後三位代表人物還在今年的季後賽裡面在各自的球隊裡面扮演著主力中鋒的角色,這也說明了這一技術特色正成為目前中鋒的主流。

低位進攻型中鋒

代表人物

這一類中鋒更復古:身高體壯、低位背打技術嫻熟,是進攻上的攻城錘,由於體型優勢也有一定的籃板能力。不過移動速度不快,在過分注重進攻的同時可能會在防守意識上有所欠缺,能打爆對方也容易被對方打爆。隨著現在小球打法和三分、擋拆相關戰術的盛行,這一類中鋒面臨著越來越大的困境。2015年的探花奧卡福先是從預期的狀元到選秀時掉到了探花,在NBA的表現也不如更符合當前打法潮流的唐斯和波爾津吉斯。

德馬庫斯·考辛斯

說起中鋒,一定得聊聊當前聯盟第一中鋒—德馬庫斯·考辛斯。本巫幾乎沒看過考神比賽,之前也知道考神比較奇葩。現在發現考神的奇葩從選秀相關的數據就能看出來:在十年有大學數據和體測的新秀里,彈跳倒數第一、體脂率第二,不過身高、體重、臂展都是頂級水平,雖然胖但是靈活性不差,在噸位遠超一般中鋒的同時速度還能保持同位置的平均水準。對於前面介紹的那一大堆中鋒大前鋒,考神表示「我不管你們誰得分高還是籃板高,反正都沒我高」。

不過在十年來的所有有大學數據新秀大前鋒和中鋒裡面,考神的得分率和籃板率綜合考慮考慮只能屈居第二,綜合第一那個叫布雷克-格里芬,而且還沒法調整權重讓考神上位,因為格里芬得分率和籃板率都比考神高……幸虧格里芬打的是大前鋒,所以第一中鋒還是考神的。

綜述

綜合前面的分析,可以發現通過已有的統計特徵,新秀的數據可以看成下面的分布:

結合這一規律,加上前面對各個位置的分析,給定一個新秀在圖中的位置,我們可以快速大體判斷出來他的身體和技術特點。

再舉個應用的案例,如果想分析十年來新秀類型的變化趨勢,可以分別把2006~2010和2011~2015年選秀的分布畫出來:

2006~2010

2011~2016

令人在意的有幾個點:

1)大前鋒和小前鋒的分布特點沒啥變化;

2)前五年的中鋒分布較為集中,基本集中在前面提到的兩種典型中鋒類型所在區域,後五年出現了不少比較「奇葩」的中鋒;

3)後衛線的變化非常大,與之前相比,後五年出現了一批更像得分後衛的控衛,另外後五年的後衛分布中明顯有一大片區域在前五年的對應位置幾乎是空的,只有零散一兩個球員!

對於新出現的這類後衛,選了該區域幾個球員進行分析:

他們的最大共同特點就是,我都不認識……好吧貝弗利還是認識的。

看了一下球探報告和數據,本巫發現他們的得分率都低於同位置平均水平,身體條件一般,定位為角色球員,在且僅在某一方面具有特長(投射或是防守),因此球隊對其定位也會比較低,順位不高。

四 總結

不過以上方法也存在一些缺陷:

1)對於一個新秀防守方面的能力,很難通過現有的數據進行建模,體測數據只能反映防守相關的先天條件,無法反映站位、意識這些要素;

2)對於不少上面的新秀缺乏體測數據,用同樣場上位置均值代替的方法可能會帶來誤差,前面介紹「全面小前鋒」那裡提到的威金斯,其實他的優勢在於勁爆的身體素質,但由於缺少他的體測數據,所以他就被放在了一個比較平庸的位置上了;

3)體測數據是一次測量得到的,(特別是動態數據)可能會受球員當天測試狀態的影響。

其中第一點非常致命,這也表明在缺乏足以反映球員實際表現的特徵時,基於數據的分析是無法做到非常準確的。不過對於大部分籃球愛好者而言,如果要了解某一屆的某幾位新秀,專門收集各種球探報告了解新秀的具體特點不太現實。而以上數據分析和可視化方法就能快速提供一個比較粗略但直觀的表示,包括新秀的大致特點,和他相近的球員等……

預告

下一期將會在這一期結果的基礎上,繼續深挖十年來NBA新秀相關的內容,包括但不限於:

1)今年總決賽雙方主力球員在選秀時的特點和分布(騎士:歐文、樂福、T湯普森、香波特;勇士:庫里、K湯普森、格里、巴恩斯);

2)尋找新秀中的「大眾臉」:各個位置中最貼近該位置平均分布的新秀及其發展情況。

以上。

推薦閱讀:

運動課:素質教育風口下,2000億的體育培訓市場如何開發?
你的訓練服穿對了嗎?
《快樂向前沖》奪冠的劉飛與羅剛分別是怎樣的人?
少年三國志的快速提升的方法有哪些?
勇士的懵逼,和騎士的懵逼還是有點不一樣

TAG:NBA | 數據分析 | 體育 |