【Python3網路爬蟲開發實戰】1.9-部署相關庫的安裝
02-26
如果想要大規模抓取數據,那麼一定會用到分散式爬蟲。對於分散式爬蟲來說,我們需要多台主機,每台主機多個爬蟲任務,但是源代碼其實只有一份。此時我們需要做的就是將一份代碼同時部署到多台主機上來協同運行,那麼怎麼去部署就是另一個值得思考的問題。
對於Scrapy來說,它有一個擴展組件,叫作Scrapyd,我們只需要安裝該擴展組件,即可遠程管理Scrapy任務,包括部署源碼、啟動任務、監聽任務等。另外,還有Scrapyd-Client和Scrapyd API來幫助我們更方便地完成部署和監聽操作。
另外,還有一種部署方式,那就是Docker集群部署。我們只需要將爬蟲製作為Docker鏡像,只要主機安裝了Docker,就可以直接運行爬蟲,而無需再去擔心環境配置、版本問題。
本節中,我們就來介紹相關環境的配置過程。
本資源首發於崔慶才的個人博客靜覓: Python3網路爬蟲開發實戰教程 | 靜覓
如想了解更多爬蟲資訊,請關注我的個人微信公眾號:進擊的Coder
http://weixin.qq.com/r/5zsjOyvEZXYarW9Y9271 (二維碼自動識別)
推薦閱讀:
※gitbash中只調用python沒反應但如果後面添加了具體.py文件可以執行,是怎麼回事?
※Python3.4 用 pip 安裝lxml時出現 「Unable to find vcvarsall.bat 」?
※不再寫 for 循環
※用 cx_Freeze 將 Python 腳本編譯為 Windows exe 實戰
※Python中實現iterator