【Python3網路爬蟲開發實戰】4-解析庫的使用
02-26
上一章中,我們實現了一個最基本的爬蟲,但提取頁面信息時使用的是正則表達式,這還是比較煩瑣,而且萬一有地方寫錯了,可能導致匹配失敗,所以使用正則表達式提取頁面信息多多少少還是有些不方便。
對於網頁的節點來說,它可以定義id
、class
或其他屬性。而且節點之間還有層次關係,在網頁中可以通過XPath或CSS選擇器來定位一個或多個節點。那麼,在頁面解析時,利用XPath或CSS選擇器來提取某個節點,然後再調用相應方法獲取它的正文內容或者屬性,不就可以提取我們想要的任意信息了嗎?
在Python中,怎樣實現這個操作呢?不用擔心,這種解析庫已經非常多,其中比較強大的庫有lxml、Beautiful Soup、pyquery等,本章就來介紹這3個解析庫的用法。有了它們,我們就不用再為正則表達式發愁,而且解析效率也會大大提高。
本資源首發於崔慶才的個人博客靜覓: Python3網路爬蟲開發實戰教程 | 靜覓
如想了解更多爬蟲資訊,請關注我的個人微信公眾號:進擊的Coder
http://weixin.qq.com/r/5zsjOyvEZXYarW9Y9271 (二維碼自動識別)
推薦閱讀: