【Python3網路爬蟲開發實戰】7.3-Splash負載均衡配置
用Splash做頁面抓取時,如果爬取的量非常大,任務非常多,用一個Splash服務來處理的話,未免壓力太大了,此時可以考慮搭建一個負載均衡器來把壓力分散到各個伺服器上。這相當於多台機器多個服務共同參與任務的處理,可以減小單個Splash服務的壓力。
1. 配置Splash服務
要搭建Splash負載均衡,首先要有多個Splash服務。假如這裡在4台遠程主機的8050埠上都開啟了Splash服務,它們的服務地址分別為41.159.27.223:8050、41.159.27.221:8050、41.159.27.9:8050和41.159.117.119:8050,這4個服務完全一致,都是通過Docker的Splash鏡像開啟的。訪問其中任何一個服務時,都可以使用Splash服務。
2. 配置負載均衡
接下來,可以選用任意一台帶有公網IP的主機來配置負載均衡。首先,在這台主機上裝好Nginx,然後修改Nginx的配置文件nginx.conf,添加如下內容:
http { upstream splash { least_conn; server 41.159.27.223:8050; server 41.159.27.221:8050; server 41.159.27.9:8050; server 41.159.117.119:8050; } server { listen 8050; location / { proxy_pass http://splash; } }}
這樣我們通過upstream
欄位定義了一個名字叫作splash
的服務集群配置。其中least_conn
代表最少鏈接負載均衡,它適合處理請求處理時間長短不一造成伺服器過載的情況。
當然,我們也可以不指定配置,具體如下:
upstream splash { server 41.159.27.223:8050; server 41.159.27.221:8050; server 41.159.27.9:8050; server 41.159.117.119:8050;}
這樣默認以輪詢策略實現負載均衡,每個伺服器的壓力相同。此策略適合伺服器配置相當、無狀態且短平快的服務使用。
另外,我們還可以指定權重,配置如下:
upstream splash { server 41.159.27.223:8050 weight=4; server 41.159.27.221:8050 weight=2; server 41.159.27.9:8050 weight=2; server 41.159.117.119:8050 weight=1;}
這裡weight
參數指定各個服務的權重,權重越高,分配到處理的請求越多。假如不同的伺服器配置差別比較大的話,可以使用此種配置。
最後,還有一種IP散列負載均衡,配置如下:
upstream splash { ip_hash; server 41.159.27.223:8050; server 41.159.27.221:8050; server 41.159.27.9:8050; server 41.159.117.119:8050;}
伺服器根據請求客戶端的IP地址進行散列計算,確保使用同一個伺服器響應請求,這種策略適合有狀態的服務,比如用戶登錄後訪問某個頁面的情形。對於Splash來說,不需要應用此設置。
我們可以根據不同的情形選用不同的配置,配置完成後重啟一下Nginx服務:
sudo nginx -s reload
這樣直接訪問Nginx所在伺服器的8050埠,即可實現負載均衡了。
3. 配置認證
現在Splash是可以公開訪問的,如果不想讓其公開訪問,還可以配置認證,這仍然藉助於Nginx。可以在server
的location
欄位中添加auth_basic
和auth_basic_user_file
欄位,具體配置如下:
http { upstream splash { least_conn; server 41.159.27.223:8050; server 41.159.27.221:8050; server 41.159.27.9:8050; server 41.159.117.119:8050; } server { listen 8050; location / { proxy_pass http://splash; auth_basic "Restricted"; auth_basic_user_file /etc/nginx/conf.d/.htpasswd; } }}
這裡使用的用戶名和密碼配置放置在/etc/nginx/conf.d目錄下,我們需要使用htpasswd
命令創建。例如,創建一個用戶名為admin
的文件,相關命令如下:
htpasswd -c .htpasswd admin
接下來就會提示我們輸入密碼,輸入兩次之後,就會生成密碼文件,其內容如下:
cat .htpasswd admin:5ZBxQr0rCqwbc
配置完成後,重啟一下Nginx服務:
sudo nginx -s reload
這樣訪問認證就成功配置好了。
4. 測試
最後,我們可以用代碼來測試一下負載均衡的配置,看看到底是不是每次請求會切換IP。利用http://httpbin.org/get測試即可,實現代碼如下:
import requestsfrom urllib.parse import quoteimport relua = function main(splash, args) local treat = require("treat") local response = splash:http_get("http://httpbin.org/get") return treat.as_string(response.body)endurl = http://splash:8050/execute?lua_source= + quote(lua)response = requests.get(url, auth=(admin, admin))ip = re.search((d+.d+.d+.d+), response.text).group(1)print(ip)
這裡URL中的splash字元串請自行替換成自己的Nginx伺服器IP。這裡我修改了Hosts,設置了splash為Nginx伺服器IP。
多次運行代碼之後,可以發現每次請求的IP都會變化,比如第一次的結果:
41.159.27.223
第二次的結果:
41.159.27.9
這就說明負載均衡已經成功實現了。
本節中,我們成功實現了負載均衡的配置。配置負載均衡後,可以多個Splash服務共同合作,減輕單個服務的負載,這還是比較有用的。
本資源首發於崔慶才的個人博客靜覓: Python3網路爬蟲開發實戰教程 | 靜覓
如想了解更多爬蟲資訊,請關注我的個人微信公眾號:進擊的Coder
http://weixin.qq.com/r/5zsjOyvEZXYarW9Y9271 (二維碼自動識別)
推薦閱讀:
※財務一名,已經工作兩年,現在想轉數據分析師,有沒有r語言和python學習的教程?
※Python數據分析及可視化實例之文本處理文本相似度(29)
※20個幫助你真正提升編程水平的網站
※php往後會被什麼取代?
※Flask 實現小說網站 (二)