【Python3網路爬蟲開發實戰】4-解析庫的使用

02-26

上一章中，我們實現了一個最基本的爬蟲，但提取頁面信息時使用的是正則表達式，這還是比較煩瑣，而且萬一有地方寫錯了，可能導致匹配失敗，所以使用正則表達式提取頁面信息多多少少還是有些不方便。

對於網頁的節點來說，它可以定義id、class或其他屬性。而且節點之間還有層次關係，在網頁中可以通過XPath或CSS選擇器來定位一個或多個節點。那麼，在頁面解析時，利用XPath或CSS選擇器來提取某個節點，然後再調用相應方法獲取它的正文內容或者屬性，不就可以提取我們想要的任意信息了嗎？

在Python中，怎樣實現這個操作呢？不用擔心，這種解析庫已經非常多，其中比較強大的庫有lxml、Beautiful Soup、pyquery等，本章就來介紹這3個解析庫的用法。有了它們，我們就不用再為正則表達式發愁，而且解析效率也會大大提高。

本資源首發於崔慶才的個人博客靜覓： Python3網路爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊，請關注我的個人微信公眾號：進擊的Coder

http://weixin.qq.com/r/5zsjOyvEZXYarW9Y9271 (二維碼自動識別)