【Python3網路爬蟲開發實戰】 1.3.2-Beautiful Soup的安裝

02-12

Beautiful Soup是Python的一個HTML或XML的解析庫，我們可以用它來方便地從網頁中提取數據。它擁有強大的API和多樣的解析方式，本節就來了解下它的安裝方式。

1. 相關鏈接

Beautiful Soup的HTML和XML解析器是依賴於lxml庫的，所以在此之前請確保已經成功安裝好了lxml庫，具體的安裝方式參見上節。

目前，Beautiful Soup的最新版本是4.x版本，之前的版本已經停止開發了。這裡推薦使用pip來安裝，安裝命令如下：

pip3 install beautifulsoup4

命令執行完畢之後即可完成安裝。

當然，我們也可以從PyPI下載wheel文件安裝，鏈接如下：https://pypi.python.org/pypi/beautifulsoup4

然後使用pip安裝wheel文件即可。

安裝完成之後，可以運行下面的代碼驗證一下：

from bs4 import BeautifulSoupsoup = BeautifulSoup(<p>Hello</p>, lxml)print(soup.p.string)

運行結果如下：

Hello

如果運行結果一致，則證明安裝成功。

注意，這裡我們雖然安裝的是beautifulsoup4這個包，但是在引入的時候卻是bs4。這是因為這個包源代碼本身的庫文件夾名稱就是bs4，所以安裝完成之後，這個庫文件夾就被移入到本機Python3的lib庫里，所以識別到的庫文件名就叫作bs4。

因此，包本身的名稱和我們使用時導入的包的名稱並不一定是一致的。

本資源首發於崔慶才的個人博客靜覓： Python3網路爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊，請關注我的個人微信公眾號：進擊的Coder

http://weixin.qq.com/r/5zsjOyvEZXYarW9Y9271 (二維碼自動識別)