用數據告訴你在上海你得這樣租(sheng)房(dian)子(qian)
大上海鎮樓
如果大家去上海找工作,那麼首要問題也是最蛋疼的問題,就是怎麼租房,哪裡的房子便宜啊,那裡的房子多啊,那裡的性價比高啊,租幾室的啊,合租還是整租,那個區比較好。。。。。
所以針對這個問題,我做了一個分析,方便自己同時也給準備去上海工作的盆友們一個參考,於是乎就把自己的分析情況在知乎上用文字圖表的形式簡單展示一下!
首先,這些數據來自於鏈家,是我用python寫的一個爬蟲抓取的數據。數據主要包含區域、租金、樓層、廳室、朝向、面積、小區名稱、地址、街道、經緯度、看房次數。
目錄:
*上海最高和最低租金
*整個上海的在租房源數量和租金的分析
*通過租金和面積兩項數據來判斷租幾室的/多大面積的房子比較靠譜
*具體分析某個區域
*基於上面幾點找到比較適合的租房區域
*爬蟲程序相關
No.1 上海最高和最低租金
我們來看這張表格(這是mysql的一個管理工具navicat,非常好用!大力推薦!)
以租金來排序,當時我就嚇尿了!月租金最高58萬什麼鬼?下面還有40萬、20萬。。。。
我們在表中找到這個url,然後我們進到鏈家看看。。。
還真是,在人民廣場,這麼大的大別墅,不是用來住人的吧。。。。。用來拍戲?還是什麼別的用途?知道的盆友可以評論。
然後我們再看看最低房租吧,最低是一千。
嗯。。。上海最低最高房租差距挺大。。。
我們來看哪看哪一千是啥樣的房子呢,隨機選擇一個1000的房源url,進去看看。。。
位於浦東惠南,1000的房子大概這樣,我也猜是這樣,畢竟這麼便宜。
No.2 整個上海的在租房源數量和租金的分析
先來一張各個區域平均月租金看看。
上圖看到租金確實是很高啊,但是不要忘了,數據裡面有很多月租金幾萬甚至幾十萬的數據,所以平均月租金會很高,後面具體分析我們肯定只是關注某一個區間。
那麼對應的各個區域房源數量是多少呢?我們在租金的基礎上加上房源數量,如下圖。
非常明顯,浦東房源數最多,而且大大甩開其他區的房源數量,其次是閔行的房源數量也比較多,那看房的人數呢?在把看房次數添加到圖表中看看。
和房源數量一致,現在大致了解到了,在浦東和閔行相對來講更容易租到房子,因為房源比較多,下面用抓取到的經緯度和地圖進行更加直觀的分析。
先看看整個上海的在租房源地圖。顏色越是偏紅,點的大小越大則房租越高,反之房租越低。
下面標出的三角形區域應該是上海最貴的地兒了。
再把三角形區域在百度地圖上展現出來看看,如下圖。
這個三角形內都是上海核心地段,房租那是必須貴啊!
再來看看各個區域房源。
這張圖就能很直觀的看出來,浦東的房源數量還是非常多的!
然後再來看一張房源數量的餅圖
浦東佔了1/4
然後再看看各個街道、面積、租金出現的頻率,用詞雲展示一下。
1、各個街道出現的頻率
很明顯的還是浦東的街道出現的頻率很高!
2、房屋面積出現的頻率
能看得出來兩室三室出現的頻率很高的,尤其是兩室的。
從這張圖看出兩室和三室出現頻率很高的,兩室應該是最高!
3、租金出現的頻率
租金基本在2000~10000之間
通過以上分析對上海整體的租房情況應該有不少了解了,下面看看應該怎麼來租房,租多大的,幾室的。
No.3 通過租金和面積兩項數據來判斷租幾室的/多大面積的房子比較靠譜
我們除了關注房子租金外還要關注一個很重要但是非常容易被忽略的地方,那就是單位面積的租金,就是每平米租金多少,這個很重要,比如一個房子是單室套30平米租金4500,一個是三室120平米租金13500,你覺得哪個划算呢?30平米的那個房子每平米租金要到150元,123平米的房子每平米112元。顯然三室的划算,而在上海大房子合租的還是居多,所有算下來,肯定123平米划算,而且居住空間也變大了呀!好了,下面還是讓圖標和數據說話!
我們先看看一張單位面積的圖表(這裡我們就只選取面積在0~300之間的好了)
可以看出面積很小的房子單位面積租金是很高的,這張圖顯示最划算的是面積在60~140之間,其中89平米單位面積租金最低為60.9元/平米,這個區間大都是兩室和三室,所以租兩室或者三室是最划算的(大都是合租,平攤下來也比單室要划算的),再看一下兩室和三室的對比。
這張表就比較明顯了,選擇面積60~110之間的是最好的,而且整體三室的單位面積租金比兩室的還要小一些,所以按照自己的預算在面積為60~110的兩室或者三室去找最好了!但是不排除有極少數單室的房子很好很划算,只是極其難遇到,而且輪不到你搶就沒了。。。
那麼兩室和三室的房子哪裡最多?
浦東簡直秒殺啊!那麼下一項我就直接分析一下浦東了。
No.4 具體分析某個區域
首先看看浦東的房屋情況把!
上圖藍色表示房源數量,橙色是平均月租金。看來陸家嘴是讓人愛又讓人恨啊。
再來看看浦東的房源地圖。
這是一個整體的概況,但是我要找的是面積在60~110,兩室和三室的房子!
我把條件限定好,再看看是什麼情況吧!先看看條形圖。
這個看起來就已經很清楚了!依然是藍色表示房源數量,橙色是平均月租金。那麼我們只要在前面選就好了,三林、惠南、北蔡、康橋、洋涇、川沙、金楊、張江、源深、花木、外高橋、世博、唐鎮、泥城鎮。那麼是不是這樣選就可以了呢?當然不是了!肯定越是靠近商圈越好呀!那我們來看看在限定條件下的房源地圖!
看到地圖了,房源不少,那麼我們怎麼選定呢,上海的中心地帶怎麼算呢,其實好幾個都算是中心,南京路、淮海路、人民廣場、外灘、還有陸家嘴作為上海金融中心肯定算一個。那麼就這樣好了,按照這些個地方的相對中心位置作為上海的中心地段好了,限定條件就離這個中心地帶8公里以內算是不錯的地段,8公里應該還好吧,我覺得不遠唉,就這樣算吧,那麼在這個條件下有這麼幾個地方符合條件,碧雲、花木、聯洋、洋涇、濰坊、源深、陸家嘴、塘橋、南碼頭、楊東、世博、三林和金楊和北蔡都有一部分包含在內姑且算是吧。
好了,現在就是把上面得到的地區和剛剛得到的做一個交集,得出來的地區是,花木、洋涇、源深、世博、三林和金楊和北蔡(一部分算在內),下面我們看看在百度地圖上的分布!
好了,到此為止租房小攻略也就差不多了,但是這個分析只是基於鏈家一份數據,仍然不夠全面,還有就是自身的很多因素會導致無法按照這個區域來找房子,比如工作沒確定,工作地址肯定也無法確定,比如你只能接受2000~3000的房租等等。。。很多原因,所以最終還是要結合自身需求來分析,當然分析的方法還是一樣的!
No.5 基於上面幾點找到比較適合的租房區域
上面的分析我得到了相對比較靠譜的租房位置,但也不能就完全按照分析結果來找,分析的結果是一個靠譜的建議,但是租房考慮的因素還有很多其他的東西,比如作為合租是不是要考慮合租的室友的情況,還有周邊環境,以及治安等等,以上的分析僅僅是在沒有對上海很了解的情況下做出的,主要以找性價比最高的位置為目的,所以真正自己去找房子的時候結合對數據的分析以及自身的因素還有房子所在位置周邊的一些情況還包括合租室友的情況做一個綜合的判斷!最後希望自己幾個月後找到靠譜的房子!
最後的最後我要吐槽一下上海的天氣!尤其夏天!記得09年我還是高中僧,八九月份樣子在上海待了兩個星期,我去!每天一出門,手臂和腿上就一層濕濕的水氣,好難受啊!我家是南京的,南京的夏天那是非常熱的,出門手臂會曬的很疼很疼!上海完全不一樣,感覺是濕熱,這點讓我記憶深刻啊。
No.6 爬蟲程序相關
開頭我講了這是用python寫的,主要是python&mysql&scrapy&redis
關於反爬蟲,鏈家好像反爬蟲很弱啊,我只是加了headers並且隨機更換useragent。
寫的時候注意把robot協議關掉,嗯。。。還有設置個download_delay吧。
談到反爬蟲其實還是有較多的策略,首先隨即更換useragent是必須的,還有就是設置下載延遲,不要無節制無休止!如果這個不行,那就用代理伺服器,可以隨即更換ip地址,再不行用用洋蔥網路吧,層層包裝,麻麻都認不出我了!還是不行?我擦,這網站hin??逼啊!那就完全模擬人操作瀏覽器,用selenium+chrome或者selenium+phantomjs,還不行??我去!你這家網站反爬做的這麼牛逼,不怕誤傷你的用戶們?嗯。。。估計是不怕的,因為他們會跳出驗證碼讓你寫,好煩淫!兩種方法,一個自己寫代碼邏輯手動輸入驗證碼,還有一種就是機器去識別,這個就牽扯到機器學習了,可以去看看tensowflow,這個可以通過機器學習不斷的提高驗證碼識別率,從而自動識別,啊。。對了還有打碼平台,這個花點錢,還有人工打碼,就是付錢有人會幫你輸入驗證,網上有好多吧?總之花點小錢輕鬆搞定,不想花錢稍微折騰一下也搞得定,哈哈。
爬蟲與反爬蟲是上輩子互相劈腿的戀人,今生今世誰也不放過誰。。。。
最後還是放上我寫的代碼吧,spider.py部分的,比較亂,湊活看看吧。。。哈哈哈
最後祝各位都租到靠譜的房子,後面如果有空的話,我再把各個區域職位信息添加進來進行分析,嗯。。。等有空吧。
未完,不知道有沒有續。。。。
推薦閱讀:
※Python · 樸素貝葉斯(零)· 簡介
※Python數據分析及可視化實例之正則Re
※數據分析項目--如何選擇你的航班
※我也來推薦一波Python書單
※為什麼選擇Python