爬了價值1800億的商品信息

寫在前面的話

好久沒來了,今天來聊聊個有意思的吧,這些天由於一些原因,自己擼了個爬蟲框架,因為要測試一下效果,於是到處爬東西,爬了不少有意思的數據,後面也會說一些別的數據,那天,連爬了四天綠中介的網站,說句實在的,綠中介反爬做得還行,陣亡好多代理ip,而且有些個代理還沒用就已經被封了,當然,對於這種不需要登錄的網站,我一般是瘋狂上,瘋狂爬,沒什麼爬取策略,就是拿ip瘋狂上,要是注意一下頻率,應該也不會封我了。

這個爬蟲框架後續完整了以後再寫寫吧,基本上就是golang調度框架+其他任何語言爬取,我用過python爬綠中介,用過phantomjs爬一些比較難搞的網站,用過chrome插件和golang框架通訊爬那些非常難搞的網站,還可以用手機和框架通訊來爬手機站,不過這個還沒嘗試。框架自帶搜索引擎,消息隊列,代理池和爬取進程,可以隨便加機器增加爬取的進程數量,好了,這個不是今天的重點。

下面我們來聊聊爬到綠中介的北京房屋數據以後能有一些什麼有意思的事情。

整體情況

對於綠中介的爬取,我主要爬的是列表的頁面,沒有進一步爬取詳情頁面了,主要信息基本上都有了,首先,綠中介真是牛逼,掌管的商品SKU只有區區20000多個,但是價值確將近1800億,如果是電商的話,絕壁是目前最牛逼的電商了,如果按照2.5%的中介費算的話,房子都賣出去的話,中介費就有45億啊!!而且現在的房子,一般情況掛出沒幾個月就賣了。那中介費只可能比這還要高,還有,這還僅僅是北京哦。。難怪PHP大神鳥哥要去綠中介做CTO,這賬算下來,完全不差錢啊,妥妥的BATL的節奏。

我拿的3月16號的數據來分析一下,那天爬到了26000多的信息,比鏈家顯示的房源要少一點,因為有些地方(比如燕郊)超過100頁了,爬不全,不過不影響,分析下來:

總金額 : 1755 億元

均價 : 6.69 萬元/平米

平均面積 : 101.94 平米

最大面積 : 1531 平米

最貴房子 : 1.5 億元

最老房齡 : 1950 年

恩,均價6.7萬,這是包括燕郊這樣的非北京哦,而且燕郊房子很多的,除掉燕郊的話,均價應該還要更高。

注意哦,這個均價是3月16的,在3月11號,均價還是6.54,3月17的時候均價已經是6.71了,雖然說每天的數據有差異,但是均價這個東西應該變化不大,如果均價持平的話至少應該有上有下吧,但我抓的幾天數據,均價算下來一直在往上漲。

關於總價和首付

首先我們來看看最貴的地區吧,這個地區不是小區啊,是一個比小區更大的範圍,比如宇宙中心五道口就算一個地區,在這些地區中,西山,頤和園,萬柳這三個地區總價平均已經上了2000萬了,當然,這裡都是豪宅,又大又貴,不是看這篇文章的人能買的。

總價排名靠前的36個地區都上了1000萬,他們是西山 頤和園 萬柳 朝陽公園 官園 世紀城 金融街 CBD 東花市 西單 奧林匹克公園 西北旺 中央別墅區 太陽宮 右安門內 亞運村小營 三元橋 金寶街 四季青 三里屯 六鋪炕 東直門 交道口 建國門內 陶然亭 德勝門 宣武門 工體 木樨地 紫竹橋 西四 白石橋 歡樂谷 知春路 阜成門 月壇,這些地方有些是面積大,比如別墅區,更多的是單價高,比如城內的學區房,不管怎樣,都上了1000萬了,那北京一共有多少個地區呢?鏈家上一共有200多個地區。也就是說超過15%的地區總價都上1000萬了,排名最靠後的月壇是1002萬,你要是隨便找一個月壇的房子瞧瞧,90平,1300萬的到處都是。

宇宙中心五道口不在這前36名裡面,那麼她排多少呢?宇宙中心五道口排60名,均價876萬,宇宙副中心回龍觀排160名,均價548萬,呵呵。

然後我們來看看首付,如果你只準備了100萬首付,第一套房子的話,首付35%,那麼恭喜你,你只能在昌平南口,密雲城區以外,平谷城區以外這三個地方買房子了,連燕郊的平均首付都到102萬了。好吧,再加點,120萬首付可以到首都機場,房山的良鄉買了,再加點,140萬可以到石景山古城了,快到五環了,再加點,160萬可以去盧溝橋接受愛國主義教育了,180萬可以去通州其他地方了,注意啊,是通州其他,就是你沒怎麼聽說過的通州地區,200萬,好,你可以在回龍觀,西三旗,天通苑考慮了,這裡有個特殊點的地方,就是團結湖,目前團結湖的話,基本上200萬首付也可以買了,因為雖然靠城裡,但是面積都不大,所以總價都不算高(其實也5,600萬了),你現在兜里揣了多少錢準備上車?200萬以內能在哪裡上車,心裡有譜了吧。

基本上正常來說,200萬做為首付,基本進不了五環,當然,你要是買個特別小的房子除外。

關於熱度

關於熱度,我們首先來看看收藏最多的房源,其實我覺得收藏最多的不見得是最熱的,但是至少表示了用鏈家APP或者上鏈家網找房子的人的心理價位,大多數都是能買得起什麼房子的人在用APP查房子,土豪們一般不會用APP的,或者用的話也就是隨便搜一下看看房子,就直接殺過去拍錢了,所以收藏這個指標應該能體現那些是上車還是不上之間徘徊的人的心理價位的房子,收藏數量還有個時效性,因為一般房子掛出來沒多長時間就賣了,所以直接看某個房子的收藏量含義不大,那些單個房源收藏排前面的一般都掛出來好長時間沒有成交了,比如收藏排第一的那個房子,丰台地區的,900多的收藏量,500多萬,位置,價格都很正常,掛了一年了,沒賣出去,估計有硬傷。

我們看看收藏排前的地區吧,如下面這個圖,縱坐標是該地區的房子的均價

這裡基本上能看出來,在鏈家上刷刷刷的基本上都是換房子的居多,看看收藏前面的地區,基本上都是城裡面的學區房居多,當然中間也出現了像沙河,東壩,定福庄,竇店這樣的明顯是買第一套房子的地區,豪宅(是真豪宅,不是學區房的老破小)地區幾乎沒有,所以說基本上在鏈家上看房子還是中產階級居多,換房的居多,第一套房的可選擇性沒那麼高,剛剛說了200萬首付能買哪裡,基本上大家都清楚,都直接跑那裡去看了。

除了收藏,還有一個指標是帶看,就是房子被中介帶去看了多少次,帶看這個指標也能部分顯示房子的熱度,如果按照地區來看的話,帶看前十的地區分別是,縱坐標是該地區的房子的均價

如果說收藏主要集中在東城西城這種學區還有就是外圍的東壩沙河這樣的地區的話,那麼帶看的排名就到處都有了,沒有什麼特別集中的區域了,而且帶看的地方感覺比收藏的地方要便宜一點點,畢竟真的去看了還是會選個稍微便宜的地方吧。

關於漲幅

抓了不止一天的數據,對於漲價這個事情,我統計下來,每天都在漲,如果按照地區來分的話,平均漲幅最高的幾個地區是,統計的方法是先把兩天同一個房子的價格相減,然後把這些房子按照地區歸類,最後把總共漲的價錢除以這個地區的所有房子數量(包括沒漲價的房子)

金寶街 >>> 6.25

菜戶營 >>> 5.37

甘家口 >>> 3.80

馮村 >>> 3.8

竇店 >>> 3.6

學院路 >>> 3.09

這些地區的總價一天的平均漲幅都超過3萬了,如果看4天的漲幅的話。

金寶街 >>> 18.75

地安門 >>> 13.33

小西天 >>> 9.56

三里屯 >>> 9.25

世紀城 >>> 8.15

沙河 >>> 6.95

菜戶營 >>> 6.64

麗澤 >>> 6.0

軍博 >>> 5.88

中關村 >>> 5.21

竇店 >>> 5.2

魏公村 >>> 5.0

呵呵,雖然是總價的漲幅,但是想想竇店那地方,4天平均漲了5萬,沙河4天漲了7萬,還是挺嚇人的了,那有沒有降價的地區呢?呵呵,也有,不過降幅就呵呵了。

奧林匹克公園 >>> -0.27

安寧庄 >>> -0.30

黃村火車站 >>> -0.53

宋家莊 >>> -1.03

大山子 >>> -1.17

再來看一些奇葩的

單價

首先說每平米單價,其實對於北京的房子來說,每平米單價已經沒有意義了,在鏈家的房子,單價都限定了不能超過15萬每平米,所以你看到的最貴的單價也就是14.999,但是實際上你真的去看的時候應該不是這個價格了,關於單價最高的地方,我們隨便看一看,排名前20的小區,單價都達到上限15萬了,基本上都是城內的老破小居多,這個三里河北街出現了好幾次,至於為啥,大家可以自行搜索一下附近的學校。

小區單價(元)三里河北街3號院149946.0小石橋衚衕3號院149929.0磚塔衚衕86號院149922.0中信禧園149907.0太陽公元149851.0大菊衚衕149849.0四合上院149838.0京畿道149834.0三里河北街2號院149790.0新外大街28號院149779.0老牆根38號院149754.0倉南衚衕14號院149715.0前門西大街149714.0富國街149654.0香山塔後身149558.0真武廟三里149485.0百萬庄1號院149451.0華采嘉園149378.0三里河一區3號院149290.0新文化街四合院149057.0

面積

既然單價沒啥可說的,我們看看房子的面積,如果把車位去掉的話,在昌平的沙河有個小區叫北街家園五區,那裡有好多18平米到20平米的房子,是商業地產,呵呵,我就想問問,18平米的房子做辦公室用?呵呵呵呵噠,12梯24戶,恩,如果我沒理解錯的話,那一層就是24戶,他的核心賣點是適合白領,學生和剛來北京打工的人士居住,60萬左右,已經算是總價和單價都很低的了,不過不是住宅,是商業住房,它的戶型長這樣。

裡面長這樣

這是便宜的,另外在惠新西街那裡有個房子,也是17平米,但是需要200多萬,每平米快14萬,但還沒到上限15萬,但是這裡是住宅哦,而且有學校哦,這房子長這樣

小房子也有更高價,達到15萬系統上限的房子也有不少,比如崇文門那附近就有27平米,408萬的,已經達到14999了,呵呵。

廣安門那裡有個榮豐2008,裡面也都是20來平米的房子,每平米價格卻都是14萬以上了。

當然,你以為小單價越高那就錯了,上面單價排序那裡有個香山塔後身的小區,其實那不是小區,裡面就一棟房子,我個人覺得那房子賣一億不算貴了。當然,很多別墅買賣估計也沒掛在鏈家網上。

年齡

除了單價和面積,我們來看看房子的芳齡,北京二手房跨度大,最老的房子基本和共和國同歲了,1950年建造的。

在一個叫大菊衚衕的地方,有個1956年的房子,單價15萬,我覺得這應該算文物吧,這種和共和國同一個時代的房子,還有10年就滿70年了,是不是不能走貸款呢?

關於70年這個事可能是我想多了,畢竟,在六鋪炕那裡有個房子,1950年的房子,也是單價15萬了,但是它面積大啊,總價1100萬,1100萬買個比自己父親年齡還大的房子,還有3年就滿70年了,這房子絕對不可能貸款買,哪個銀行會給一個建造了快70年的房子放貸款呢。。。

好吧,說了不少了,由於抓得數據並不是很多,隨便搞了搞也就這麼些東西了,我們看到,後面這些的奇葩的房子,其實都和學校有關,基本上都是學區房,北京現在的房價很多是被學區房給拉上去了,花上千萬刷學區房真的用來上學的是什麼人呢?我估計還是老百姓居多,不過他們的錢更多或者他們買房早,現在換房子壓力沒有那麼大,但他們還是老百姓,因為畢竟我們大家都知道,有些人,要讓孩子上好學校靠刷臉就行了,不用刷房子,他們不用買學區房。

好了,下周專心爬一下SF,不要封我啊啊啊啊。。。

如果你覺得不錯,歡迎轉發給更多人看到,也歡迎關注我的公眾號,主要聊聊搜索,推薦,廣告技術,還有瞎扯。。文章會在這裡首先發出來:)掃描或者搜索微信號XJJ267或者搜索西加加語言就行

推薦閱讀:

R語言可視化包之ggplot2
想學習數據分析,有哪些書籍或資料參考學習?
那些小城裡的分析大師們為什麼發不了財?
數據分析中數據趨勢的判斷
20170420 NumPy基礎:數組和矢量計算-3

TAG:数据分析 | 爬虫 | 楼市 |