如何爬取搜索引擎下某個關鍵字對應的所有網站?
12-28
例如 在百度上搜索所有包含「山東」這個關鍵詞的url地址, 想寫個爬蟲 。rn=50,pn=rn*某頁 但如何確定 這個關鍵字用百度能搜出多少頁 ?或者說多少條
其實有一個很取巧的方式,2014年的時候我就回答過。
百度URL加上參數pn=750,訪問並抓取這個頁面,在源代碼找到pageNum,即可知道有多少頁。
舉例如下
https://www.baidu.com/s?wd=%E5%B1%B1%E4%B8%9Cpn=750
山東 有 76 頁。
https://www.baidu.com/s?wd=%E6%9B%BC%E9%99%80sp%E5%BA%84%E5%9B%AD%E5%A7%9C%E5%88%91pn=750
曼陀sp莊園姜刑 有 20 頁。
selenium+chrome
推薦閱讀:
※為什麼這個網頁的源代碼用python爬下來後用beautifulsoup解析後會出現字元丟失?
※目前做爬蟲,往後的職業發展方向是什麼?
※python如何爬取字幕組網站的電影鏈接地址?
※我該如何用PHP的cURL獲取這個奇葩的網頁內容?
※使用python爬取pixiv.net的圖片?