要一眼識別出哪些是城市裡品質更高的居住空間,數據能夠做什麼?

在評估一座城市的內部空間時,新一醬一直有一個困惑:要怎樣才能知道哪些小區可能會住著更追求生活品質的人?

簡單的小區房價數據並不能幫上這個忙。從微觀空間來講,房價的決定因素中,房子的位置幾乎是起到了決定性的影響力,而房子外部的因素——比如學區——帶來的偶然影響也往往高於房子內部的居住品質本身。

看下面的上海小區房價等高線圖就可以很輕易地發現,小區相對市中心距離的因素直接影響到了城市內的房價數據產生了明確的圈層效果。

有朋友告訴新一醬一個經驗,物業費的高低是衡量小區品質非常直觀的一個參考數據:在上海,別墅的物業費通常在4元/平方米/月以上,頂級豪宅的物業費單價能高於10元,而「老破小」的這個數字一般會低於1元。

在上面的等高線圖中,新一醬也嘗試做了一份物業費的等高線圖,但幾個遠郊別墅區出現的明顯高值聚集區又讓我們產生了猶豫——物業費的確對最高端的一批小區有比較明確的識別力,但對市中心更複雜的居住環境來說,它很難在狹小的區間段內作為單一指標來識別出那些諸如「適合城市的中產階層家庭」居住的,具備一定品質的小區。

經歷了兩個重要數據直接關聯識別失敗後,新一醬認真地靜了一靜。我們總是期待能有一些與現實經歷具備嚴格相關性的「超級指標」能夠直接映射出某個結論。但實際上,城市的運轉總是無數事物交織在一起互相作用的。

就好像走在街道上路過一個小區的時候,你的大腦經過對它的樓高、外立面新舊、綠化效果或者隔著圍欄看到的遛狗的大爺,通常都能夠處理出來一個結果:這個小區的房價是該比周邊房子更貴還是更便宜,或者簡單點,「不考慮買不買得起,我是否會願意住在這樣的一個小區里」。

因此新一醬認為,要想分析出一座城市裡哪些居住空間更有品質,更合適的辦法是模擬類似這樣的一套主觀感知與決策的過程,將更多人腦認為能夠納入小區是否更適合居住的因子都放入一個大池子里。

運氣很好的是,最近幾年鏈家開始大規模要求門店中介對轄區內的所有小區進行詳細的數據錄入,不僅記錄小區的建築年代、樓棟數與戶數、物業費、車位配置等基本的數據,還包括對小區的景觀與設施配置、業主及租客特徵、安保與保潔,以及其他優缺點特徵都作了詳細的文字記錄。(感恩)

這些數據與文本信息,正好是新一醬希望在分析池中用到的。於是以上海為案例,新一醬在鏈家上抓取了約1.7萬個小區的所有詳情數據。對所有數據進行清洗及標準化之後,新一醬最終從1.7萬個小區的總量中篩選出了8169個數據全面的小區作為分析樣本。

在《這些年,上海是如何一點一點變大的》中,新一醬曾經對上海所有小區的建成年代展開分析,而如果疊加它們的外立面描述——它通常也是我們見到小區的第一印象,你會看到類似上面詞雲圖表展現的結果:間隔40年,上海的小區外立面在風格、色彩和材質上已經有了明顯的多次迭代。當然,建設時間更早的小區得到最大的評價是「老」,這也意味著它們的居住空間品質會在觀感層面被直接減分。

小區內的配套設施也是這種直覺印象的組成部分。健身器械已經成為了上海小區內部的標配,但如果小區可以擁有更為小眾的公共空間——除了分類更細的運動設施,新一醬在數據中發現了燒烤區域、紅酒室、雪茄室這樣的配置,小區的品質感會一下子得到很高的加分。

當然外部設施通常只是第一印象,人們最終將最多的時間花在自己的房子內部。

2017年,上海市城鎮居民的人均住房面積是36.7平方米,這低於很多級別更低的城市。住在更寬敞的房子里,是很多人換房子的主要訴求,而住在更有品質的房子里,通常是在滿足「更大的房子」前提之後才會考慮的問題。基於這個判斷,新一醬認為,如果一個小區的主力戶型面積更大,則它會更傾向於提供更高品質的居住空間。

要識別一個小區的主力戶型,新一醬首先對每個小區內的戶型面積數據展開第一輪分析,排除過高的異常值後,取小區內所有戶型面積值的頻數最高區間中間值作為小區的代表戶型面積。如果有並列的頻數最高區間,則取它們中間值的平均值。

綜合上海所有小區的代表戶型面積數據,你能在上圖中看到從市中心向外,小區的代表戶型越來越大,並在閔行、松江方向形成了「大戶型聚集分布區域」,這裡也確實是上海近郊主要的一大片別墅區。而在上海的北部,戶型則沒有進一步擴大的趨勢。

當然戶型相關的數據也不僅僅只是面積。戶型朝向及內部規劃的有效性都會影響到人們在內部的居住品質。人們對這一點的重視尤其出現在大約2000年之後開發的樓盤上,對那些由品牌開發商操盤的樓盤來說,戶型的略微差異都會顯著影響銷售價格,乃至品牌聲譽。

從每個小區的整體情況看,新一醬也著手統計了目力所及能夠觀察到的戶型數據。從鏈家上能收集到的近25萬多套掛牌和交易的房源看,人們最為看重的戶型標籤包括「南北通透」「X房間朝南」「明衛」等。在對房子的居住品質考量上,新一醬也會著手把這些標籤作為量化指標納入進去。需要說明的是,其他也對戶型有積極評價的標籤還包括了「明廚」「卧室帶陽台」「主卧帶衛」「觀景落地窗」「帶衣帽間」「觀景飄窗」"帶閣樓"等,但它們在總體中的代表性不如前三者那麼突出。

除了這些指標,人們在購房之前還會著重考慮的是與誰住在一起。其中一個不太禮貌但足夠直接的問法是「這個小區是不是動遷安置房/經適房/廉租房/公租房小區」。與業主及租客畫像相似的,購房者會通過對這個問題的回答來判斷小區內居住人群品質的如何。不可迴避地,我們也需要將這個維度的數據納入評價體系之中。

完成對所有可量化數據指標的梳理之後,新一醬確定了9項指標來對各個小區的居住品質展開綜合評估,以此得到上海整體居住空間評估的結論。這9項指標分別為:

1 物業費。

2 小區二手房價水平。為了消除空間區位對房價帶來的影響,我們計算的小區房價在所在板塊內的價格水平,每個板塊分成5級計算。

3 房屋屬性。是否為動遷安置房/經適房/廉租房/公租房,若是則做降分處理。

4 房齡。計算時按每十年為一個年代計分,1949年之前建造的房子統一記為一類。

5 代表戶型面積。

6 戶型優點標籤佔比。包含了「南北通透」「朝南」和「明衛」三個標籤,分別計算小區內包含這些標籤的戶型占所有戶型比例。

7 業主特徵。在中介人員記錄的文字描述中,挑選「改善房」「置換」「預算充足、年紀較大的購房者」「企業高管」等非首次置業、非年輕購房群體相關的關鍵描述,從業主人群描述角度來判斷小區是否具備高品質屬性。

8 租客佔比。這部分數據也是從文本描述中提取,沒有明確的量化比例數據。其中,「租客少」會被判定為加分項,而「租客多」則判定為減分項,沒有相關描述的不計入。

9 車位配比。車位的充裕自然能在一定程度上反映小區品質更高。不過這項數據的缺失比較嚴重,新一醬只能為缺失小區暫賦了同板塊相應的均值,並忍痛調低了它的重要性。

將這9項指標擬合起來,新一醬一共嘗試了3種方法。

第一種方法是用「多元回歸演算法」,它想驗證的其實是新一醬的朋友在最初提出的假設「是否物業費越高的小區品質一定越高」。這裡我們用物業費之外的8項指標來擬合物業費,將所有數據的75%劃分為訓練集,25%作為測試集。最終得到了較好的擬合效果及每個指標的權重,賦權匯總後得到每個小區的總分。

但在核查時,新一醬發現多元回歸的結果依然受到數據可靠性的影響並不足夠理想。因此新一醬決定再引入主觀的「層次分析法」每個指標項設定主觀權重,並計算另一個版本的小區品質總分。

針對對兩個版本的小區品質總分,新一醬分別提取了各板塊內排名10%的小區,並取兩個版本的交集。

在這個過程中,作為一次嘗試,新一醬也引入了非監督學習中的「DBSCAN分類演算法」,對上述指標中的房價、物業費、房屋屬性減分項、車位配置4項數據展開分析,得到了27組特徵顯著的分類及一組特徵散亂的離群點。由於輸入的有效屬性不足,這次分析的結論只能作為之前得到結果的輔助方法來修正一部分結果。

最終,新一醬算出了上海的790個高品質小區。

從板塊層面上看,幾乎所有的高品質小區的房價都能高於同板塊的小區均價。其中與市中心距離較遠的板塊溢價率更高,而浦東的幾個聯洋、碧雲及塘橋的高品質小區房價與板塊均價幾乎沒有差別。

而從物業費看,由於多數板塊的物業費均價差異不大,一些品質小區超過10元/平方米/月的物業費則顯示出超高溢價了。有趣的是,在長壽路板塊,品質小區的物業費均價竟然低於板塊整體的物業費均價。

當然,品質小區也依然面臨著自己的問題。新一醬針對790個選出的品質小區再統計了它們的優缺點之後發現,它們之中仍有一定比例的小區面臨噪音、安全和光污染等問題。只是相對於更多的居住空間來說,這已經是相對最好的選擇了。

最後,新一醬從7個方面列出了各自的TOP 10品質小區,它們不是完整名單,但具有一定的代表性意義。

在這一套研究中,新一醬從數據出發,明確了城市中哪些區域有哪些更好的居住空間,使得人們願意犧牲價格、交通或者其他因素選擇住在這裡。從中,我們也能反推出城市中那些追求生活品質的人都在什麼地方聚集。

更重要的是,這套數據結論也反向為城市從整體上標識出了一些更值得關注的居住空間,它們與高品質的居住空間有很大的距離,也許是城市進化過程中值得更新的潛在目標。

文/丁成成 沈從樂 視覺/王方宏

本文用到的數據均抓取自鏈家

可能存在記錄缺失或不準確等問題

新一線城市研究所擁有文章版權,獲得更多信息請關注我們的微信公眾號,微信id: TheRisingLab。

推薦閱讀:

TAG:城市 | 數據 | 住宅地產 |