如何抓取url不變的網站數據?

如何從上海煤炭交易網數據中心-上海煤炭交易網 的數據中心,抓取「
進口分貿易商明細」為例的分日期數據?特別是URL不變的情況下,如何抓取從1月至8月,300多頁的數據?


兄弟,你有去試著寫過一個爬蟲嗎?那我來教你好了。
我點開了你給我的網址,點了你所說的《進口分貿易商明細》,看他的url並沒有改變是嘛? 0 0 我k 為什麼,這麼詭異,那我們用chrome 按下F12看看他到底搞了什麼鬼 ,如下圖:

奧,原來他這是一個內嵌頁面。我們把這條url在另一個tab裡面打開看看。

誒,貌似跟普通網頁沒什麼區別了嘛?看看源代碼,這些數據是不是js寫進去的,貌似也不是啊,都是扎紮實實的數據在整個html裡面。

那題主這些數據的採集你總會了吧。
不不不,那個翻頁 url不是還沒改變嘛????
那你再按下F12 看看我翻頁又請求了什麼??

搜嘎,原來如此,那以後只用對這個action 去post 這個data就可以實現翻頁了嘛,很簡單嘛。
那你怎麼做就看你的咯~


謝邀
kOlapapa的方案是正確的,不用我多說什麼.
這如果這樣的採集不到的話可以考慮用python+selenium自動化的技術做到,
目錄 · webdriver-python


rvest包超級方便


推薦閱讀:

beautifulsoup與scrapy 這兩者之間有什麼區別?
selenium 怎樣設置請求頭?
網頁上的一張圖片右鍵選擇新窗口打開是正常的,直接複製地址到地址欄打開就不正常了。誰知道是什麼原因嗎?
Python 爬蟲調用 requests 如何設置代理(GoAgent/GoAgentX)?
分散式雲爬蟲,未來的主流採集方式?

TAG:網站數據 | 數據抓取 | 網頁爬蟲 |