【Python3網路爬蟲開發實戰】4-解析庫的使用

上一章中,我們實現了一個最基本的爬蟲,但提取頁面信息時使用的是正則表達式,這還是比較煩瑣,而且萬一有地方寫錯了,可能導致匹配失敗,所以使用正則表達式提取頁面信息多多少少還是有些不方便。

對於網頁的節點來說,它可以定義idclass或其他屬性。而且節點之間還有層次關係,在網頁中可以通過XPath或CSS選擇器來定位一個或多個節點。那麼,在頁面解析時,利用XPath或CSS選擇器來提取某個節點,然後再調用相應方法獲取它的正文內容或者屬性,不就可以提取我們想要的任意信息了嗎?

在Python中,怎樣實現這個操作呢?不用擔心,這種解析庫已經非常多,其中比較強大的庫有lxml、Beautiful Soup、pyquery等,本章就來介紹這3個解析庫的用法。有了它們,我們就不用再為正則表達式發愁,而且解析效率也會大大提高。


本資源首發於崔慶才的個人博客靜覓: Python3網路爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊,請關注我的個人微信公眾號:進擊的Coder

weixin.qq.com/r/5zsjOyv (二維碼自動識別)

推薦閱讀:

TAG:Python | 爬蟲計算機網路 |