建築領域大數據獲取[通過python爬取房價信息](第一篇:數據獲取)

建築領域大數據獲取[通過python爬取房價信息](第一篇:數據獲取)

建築領域大數據獲取[通過python爬取房價信息](第一篇:數據獲取)

這一篇CS土木工程師來帶你玩python獲取有關房價的大數據

(為了避免不必要的麻煩,以下的鏈接以及網站截圖均已經處理,此文章僅作技術分享,如果您覺得侵犯了您的權益,可以反饋給我)

  • 首先我們要理清楚問題的定義:
  • 想要知道房價最可靠的地方是哪裡?
  • 答案是:物價局官方網站

那麼下面的例子就從某市的物價局官網下載房價信息進行數據的獲取

手動操作步驟:

  1. 我們打開某市的物價局官網

    wjj.某市.gov.cn/ptl/index.html
  2. 找到房價公開信息地址

    wjj.某市.gov.cn/ptl/def/def/inde
  3. 查看每一批的房價公示信息
  4. 下載房價公示信息表格
  5. 其他後續操作(下一篇文章將進行講解)

直接查看網頁,發現為jsp頁面,動態載入了列表信息,直接查看網頁源碼不行

通過查看元素分析

真正訪問的數據獲取的頁面為:

wjj.某市.gov.cn/cisite_wjj.某市.gov.cn/def/def/index_12

查看源碼有我們想要的數據了

  • 接下來就開始使用python3原生的request庫爬網頁源碼

    一言不合上代碼

  • 這幾行代碼就把第一個頁面源碼搞到了,以下為輸出:

  • 接下來就是正則匹配找到每一個要爬的二級頁面

    已經找到了所有二級頁面的鏈接以及標題:

  • 接下來直接匹配子頁面查找zip文件:

這個zip包所在位置是一個封裝好的地方,於是直接從源碼中找到iframe爬

  • 接下來再去正則查找zip或者rar即可得到全部的zip文件

  • 最後下載zip或者rar即可:

瞬間就全部下載完畢:

基於此,就已經有了某市最近的房價信息:

至於後續怎麼分析數據,且聽下回分解


推薦閱讀:

這或許是對小白最友好的python入門了吧——20,定義函數簡單應用
圖像識別——傳統的驗證碼識別
Python · 樸素貝葉斯(一)· 框架
python intern機制的相關測試

TAG:Python | 數據挖掘 | 房價 |