你的收入水平,已經被家門口的樹出賣了!
作者 | Walker Harrison
編譯 | 張意莉
題圖 | 站酷海洛
在美國,如果你用肉眼觀察一個地區是貧民區還是富人區,那就OUT了!在這個DT時代,有一位數據俠利用相關性關係來辨別美國小區的富裕情況,不信你就看看他是怎麼做到的。
評估一個小區的貧富度除了用傳統的人均收入或暴力犯罪率外,還可以透過樹的寬度和健康度來量度。
我有幸成長於布魯克林的公園邊坡旁 。這是一個有利於撫養小孩的小區,因為在這裡你不難發現有很多本地人穿著錦衣華服,推著昂貴的嬰兒車,或是拎著有機農產品。
回想起來,在布魯克林的其他小區,從著名的體育場地Flatbush大道走到舉辦年度數學競賽的商業中心區,或是走到Bay Ridge區見我女朋友,這些小區的富裕程度或白人居民所佔比率都不及布魯克林的公園邊坡一帶。
很多中學生並不熟悉常用於辨別小區富裕程度的指標,例如:人均收入、暴力犯罪率、傳染病發病率等等。不過,如果你住在布魯克林,你會知道其實還有很多別的辨別方法。
乾淨的街道、安靜的夜晚和親切的門衛都著味著那裡是一個良好的小區;相反,嘈吵的狗吠聲、一道道的鐵絲網和滿地破碎的酒瓶代表著差劣的小區。春天時,在良好的小區中,樹木總是開得繁花似錦。
因此,基於這個現象,通過紐約市的公園及康樂管理局每隔幾年對紐約市所有樹木作出的統計,我們可以作出一個驗證。
▍數據準備
在紐約市公開數據中可以找到2015年樹木普查結果,當中記錄了超過68萬棵樹的生長地點、尺寸、品種和健康狀況。另外,紐約全市三十七個小區的人口及小區邊界數據也可以在Zip Atlas 的網站上找到。
這個驗證主要用到以下幾個R數據包 (XML, ggplot2, ggmap, RSocrata)來抓取數據,代碼如下:
url_trees <- https://data.cityofnewyork.us/resource/nwxe-4ae8.csvurl_zips <- http://zipatlas.com/us/ny/brooklyn/zip-code-comparison/median-household-income.htm
trees <-read.socrata(url_trees)
trees <- subset(trees, boroname == Brooklyn)
trees$tree_dbh <- as.numeric(trees$tree_dbh)
neighborhoods <- readHTMLTable(url_zips, header=T, which=1, stringsAsFactors=F)
neighborhoods <- neighborhoods[complete.cases(neighborhoods), c(2,5,6)]
neighborhoods <- neighborhoods[-1, ]
names(neighborhoods) <- c("zipcode", "population", "income")
neighborhoods$population <- as.numeric(gsub("[$,]", "", neighborhoods$population))
neighborhoods$income <- as.numeric(gsub("[$,]", "", neighborhoods$income))
在以上的代碼中,其中一個變數是tree_dbh,代表樹木的胸徑,這是一個常用於量度樹木寬度的指標。根據樹木普查的資料庫,胸徑的定義是指地面往上4英呎(1.2米)處的樹榦直徑(樹周長除以π)。
▍數據分析與可視化
首先,我們可以先把樹木按郵編進行分組,再計算每組樹木的平均胸徑、人均樹木值(trees per capita),把現成的各區樹木數量除以人口,再把結果跟其他經濟數據作比較,看看當中各區的富裕度跟樹木的胸徑大小的關係。因此,我用R 跑了一次回歸分析。
雖然回歸分析的結果顯示樹木胸徑的粗幼度跟小區的家庭收入並不是呈現絕對的正比關係,但從上圖中可以看出,兩者仍有一定程度的關係:該區家庭收入越高,樹木胸徑就越粗。
舉個例子:在家庭收入中位數只有$20,000美元的郵編區,其小區的樹木胸徑只有7至8英寸粗 (17.8cm 至20.32cm);反之,在家庭收入中位數達$40,000美元的郵編區,其小區的樹木胸徑至少有10英寸(25.4cm),很多甚至達到15英寸(38.1cm)。
樹木胸徑會隨著樹木的年齡而增加,由此可推斷,很多較富裕的小區比其他小區更早規劃,且擁有更多粗壯的樹木和珍貴的品種,例如在Cobble Hill 柏油路上的一片楓樹或是Prospect 公園周邊高聳的橡樹。
另外,從上述的回歸分析圖的綠點可見,在富人區,平均每十人擁有一棵樹,而在窮人區,平均每二十至二十五人擁有一棵樹。
在最後的分析中,我會帶大家看看極端例子。最富裕的五個郵編區分別為:11201、11215、11217、11231和11234,分別對應了Brooklyn Heights區、Park Slope區、Boerum Hill區、Carroll Gardens區和Mill Basin區。
而最貧窮的五個區則為:11239、11206、 11212、11224和11221,分別覆蓋了East New York區、Bedford-Stuyvesant區、Brownsville區、West Brighton區和Bushwick區。
以下是一張布魯克林的衛星圖像,上面藍色的點代表每一棵在富人區的樹的坐標,而紅色的樹木坐標則反映了窮人區。從這張簡單的圖片,也不難看出,富人區的樹木的數量比窮人區的密集。
以下是生成這張衛星圖像的代碼:
另外,當我嘗試尋找櫻桃樹(一種專門在春天開得特別燦爛的樹),發現長在富人區的櫻桃樹比在窮人區的多3倍(1,136棵 VS 356棵)。扣除了窮人區擁有較少樹木的因素外,窮人區比富人區有更多死樹 (452棵VS406棵) 和更多的運動鞋掛在樹上(29棵 VS 17棵)。
▍項目總結
總而言之,如果你經過布魯克林的富人區,你不僅會看到更多的樹木,而且會發現這些樹木都長得更大、更健康和更美。
在這個項目里不能只考慮因果關係,基於「喜歡與樹木玩耍的原因」而得出上述的結果是不太可能的,因為很多針對小區的量度方法都是帶有周期性和自我強調(self-reinforcing)的特質。在我們這個例子中,樹木的生長狀況可能吸引了高收入人士去選擇遷入某個小區,因而樹木受惠於該區有更多的時間和資源來照顧它們。
這個研究希望提供一種額外的方法用於量化布魯克林區的不公平狀況。這個研究期望找到一個中立的角度去解讀城市的統計結果和現實生活中的體驗,但兩者通常都是對立的。這是一種自然的趨勢,把知識分為可學習的東西跟可感受的信息。有時候,你可以在志願者的幫助下,利用一些統計軟體進行研究。
註:本文編譯自A [big, beautiful] Tree Grows in Brooklyn [if you』re wealthy].內容僅為作者觀點,不代表DT數據俠立場。文中圖片來自作者。後台回復「樹」獲取文章完整的代碼。
期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號DT數據俠(ID:DTdatahero)後台回復「數據社群」,可申請加入DT數據社群。
▍數據俠門派
本文數據俠Walker Harrison,數據博客perplex.city創始人,杜克大學統計學研究生畢業。
▍加入數據俠
數據俠計劃是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。申請入群請添加DT君微信(dtcaijing003)並備註「數據社群」,合作請聯繫datahero@dtcj.com。
推薦閱讀: