如何抓取url不變的網站數據?
12-29
如何從上海煤炭交易網數據中心-上海煤炭交易網 的數據中心,抓取「
進口分貿易商明細」為例的分日期數據?特別是URL不變的情況下,如何抓取從1月至8月,300多頁的數據?
兄弟,你有去試著寫過一個爬蟲嗎?那我來教你好了。
我點開了你給我的網址,點了你所說的《進口分貿易商明細》,看他的url並沒有改變是嘛? 0 0 我k 為什麼,這麼詭異,那我們用chrome 按下F12看看他到底搞了什麼鬼 ,如下圖:
奧,原來他這是一個內嵌頁面。我們把這條url在另一個tab裡面打開看看。
誒,貌似跟普通網頁沒什麼區別了嘛?看看源代碼,這些數據是不是js寫進去的,貌似也不是啊,都是扎紮實實的數據在整個html裡面。
那題主這些數據的採集你總會了吧。
不不不,那個翻頁 url不是還沒改變嘛????
那你再按下F12 看看我翻頁又請求了什麼??
搜嘎,原來如此,那以後只用對這個action 去post 這個data就可以實現翻頁了嘛,很簡單嘛。
那你怎麼做就看你的咯~
謝邀
kOlapapa的方案是正確的,不用我多說什麼.
這如果這樣的採集不到的話可以考慮用python+selenium自動化的技術做到,
目錄 · webdriver-python
rvest包超級方便
推薦閱讀:
※beautifulsoup與scrapy 這兩者之間有什麼區別?
※selenium 怎樣設置請求頭?
※網頁上的一張圖片右鍵選擇新窗口打開是正常的,直接複製地址到地址欄打開就不正常了。誰知道是什麼原因嗎?
※Python 爬蟲調用 requests 如何設置代理(GoAgent/GoAgentX)?
※分散式雲爬蟲,未來的主流採集方式?