【Python3網路爬蟲開發實戰】 1.3.2-Beautiful Soup的安裝
Beautiful Soup是Python的一個HTML或XML的解析庫,我們可以用它來方便地從網頁中提取數據。它擁有強大的API和多樣的解析方式,本節就來了解下它的安裝方式。
1. 相關鏈接
- 官方文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc
- 中文文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh
- PyPI:https://pypi.python.org/pypi/beautifulsoup4
2. 準備工作
Beautiful Soup的HTML和XML解析器是依賴於lxml庫的,所以在此之前請確保已經成功安裝好了lxml庫,具體的安裝方式參見上節。
3. pip安裝
目前,Beautiful Soup的最新版本是4.x版本,之前的版本已經停止開發了。這裡推薦使用pip來安裝,安裝命令如下:
pip3 install beautifulsoup4
命令執行完畢之後即可完成安裝。
4. wheel安裝
當然,我們也可以從PyPI下載wheel文件安裝,鏈接如下:https://pypi.python.org/pypi/beautifulsoup4
然後使用pip安裝wheel文件即可。
5. 驗證安裝
安裝完成之後,可以運行下面的代碼驗證一下:
from bs4 import BeautifulSoupsoup = BeautifulSoup(<p>Hello</p>, lxml)print(soup.p.string)
運行結果如下:
Hello
如果運行結果一致,則證明安裝成功。
注意,這裡我們雖然安裝的是beautifulsoup4這個包,但是在引入的時候卻是bs4。這是因為這個包源代碼本身的庫文件夾名稱就是bs4,所以安裝完成之後,這個庫文件夾就被移入到本機Python3的lib庫里,所以識別到的庫文件名就叫作bs4。
因此,包本身的名稱和我們使用時導入的包的名稱並不一定是一致的。
本資源首發於崔慶才的個人博客靜覓: Python3網路爬蟲開發實戰教程 | 靜覓
如想了解更多爬蟲資訊,請關注我的個人微信公眾號:進擊的Coder
http://weixin.qq.com/r/5zsjOyvEZXYarW9Y9271 (二維碼自動識別)
推薦閱讀: