Python Scrapy分散式原理詳解
本文和大家分享的主要是python爬蟲的Scrapy分散式原理相關內容,一起來看看吧,希望對大家學習python爬蟲有所幫助。
關於Scrapy工作流程回顧
Scrapy單機架構
上圖的架構其實就是一種單機架構,只在本機維護一個爬取隊列,Scheduler進行調度,而要實現多態伺服器共同爬取數據關鍵就是共享爬取隊列。
分散式架構
我將上圖進行再次更改
這裡重要的就是我的隊列通過什麼維護?
這裡一般我們通過Redis為維護,Redis,非關係型資料庫,Key-Value形式存儲,結構靈活。
並且redis是內存中的數據結構存儲系統,處理速度快,提供隊列集合等多種存儲結構,方便隊列維護
如何去重?
這裡藉助redis的集合,redis提供集合數據結構,在redis集合中存儲每個request的指紋
在向request隊列中加入Request前先驗證這個Request的指紋是否已經加入集合中。如果已經存在則不添加到request隊列中,如果不存在,則將request加入到隊列並將指紋加入集合
如何防止中斷?如果某個slave因為特殊原因宕機,如何解決?
這裡是做了啟動判斷,在每台slave的Scrapy啟動的時候都會判斷當前redis request隊列是否為空
如果不為空,則從隊列中獲取下一個request執行爬取。如果為空則重新開始爬取,第一台叢集執行爬取向隊列中添加request
如何實現上述這種架構?
這裡有一個scrapy-redis的庫,為我們提供了上述的這些功能
scrapy-redis改寫了Scrapy的調度器,隊列等組件,利用他可以方便的實現Scrapy分散式架構
搭建分散式爬蟲
前提是要安裝scrapy_redis模塊:pip install scrapy_redis
這裡的爬蟲代碼是用的之前寫過的爬取知乎用戶信息的爬蟲
修改該settings中的配置信息:
替換scrapy調度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
添加去重的class
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
添加pipeline
如果添加這行配置,每次爬取的數據也都會入到redis資料庫中,所以一般這裡不做這個配置
ITEM_PIPELINES = {
』scrapy_redis.pipelines.RedisPipeline』: 300
}
共享的爬取隊列,這裡用需要redis的連接信息
這裡的user:pass表示用戶名和密碼,如果沒有則為空就可以
REDIS_URL = 』redis://user:pass@hostname:9001』
設置為為True則不會清空redis里的dupefilter和requests隊列
這樣設置後指紋和請求隊列則會一直保存在redis資料庫中,默認為False,一般不進行設置
SCHEDULER_PERSIST = True
設置重啟爬蟲時是否清空爬取隊列
這樣每次重啟爬蟲都會清空指紋和請求隊列,一般設置為False
SCHEDULER_FLUSH_ON_START=True
分散式
將上述更改後的代碼拷貝的各個伺服器,當然關於資料庫這裡可以在每個伺服器上都安裝數據,也可以共用一個數據,我這裡方面是連接的同一個mongodb資料庫,當然各個伺服器上也不能忘記:
所有的伺服器都要安裝scrapy,scrapy_redis,pymongo
這樣運行各個爬蟲程序啟動後,在redis資料庫就可以看到如下內容,dupefilter是指紋隊列,requests是請求隊列
推薦閱讀:
※我抓取網易雲音樂50000+歌曲之後......
※python中的時間處理大總結
※IDLE如何清屏?
※這樣理解python中的if __name__ == '__main__'
※python單個腳本的日誌記錄功能簡單使用
TAG:Python |