如何爬取搜索引擎下某個關鍵字對應的所有網站?

例如 在百度上搜索所有包含「山東」這個關鍵詞的url地址, 想寫個爬蟲 。rn=50,pn=rn*某頁 但如何確定 這個關鍵字用百度能搜出多少頁 ?或者說多少條


其實有一個很取巧的方式,2014年的時候我就回答過。
百度URL加上參數pn=750,訪問並抓取這個頁面,在源代碼找到pageNum,即可知道有多少頁。
舉例如下
https://www.baidu.com/s?wd=%E5%B1%B1%E4%B8%9Cpn=750

山東 有 76 頁。
https://www.baidu.com/s?wd=%E6%9B%BC%E9%99%80sp%E5%BA%84%E5%9B%AD%E5%A7%9C%E5%88%91pn=750

曼陀sp莊園姜刑 有 20 頁。


selenium+chrome


推薦閱讀:

為什麼這個網頁的源代碼用python爬下來後用beautifulsoup解析後會出現字元丟失?
目前做爬蟲,往後的職業發展方向是什麼?
python如何爬取字幕組網站的電影鏈接地址?
我該如何用PHP的cURL獲取這個奇葩的網頁內容?
使用python爬取pixiv.net的圖片?

TAG:搜索引擎優化SEO | 爬蟲計算機網路 | 搜索引擎 | 網頁爬蟲 |