Python網路爬蟲（5）：PhantomJS實戰

08-12

摘要：從零開始寫爬蟲，初學者的速成指南！

封面：

image

大家好！從今天開始，我要與大家一起打造一個屬於我們自己的分散式爬蟲平台，同時也會對涉及到的技術進行詳細介紹。大家如果有什麼好的想法請多留言，多提意見，一起來完善我們的爬蟲平台。在正式介紹平台之前，先用一些篇幅對基礎篇做一點補充。

模擬滾動

這次的目標是爬一個眾籌網站的所有項目，項目列表頁如下：https://www.kaistart.com/project/more.html。打開後進行分析，頁面顯示出10個項目：

項目

如果想看到更多項目，並不能像網易雲音樂那樣點「下一頁」翻頁，而是需要向下拉滾動條或者向下滾動滑鼠滾輪來觸發非同步請求。爬蟲該如何應對這種情況呢？我們可以使用selenium的api執行js代碼將屏幕內容滾動到指定位置。

滾動

下面這段代碼會一直向下滾動項目頁，一直到滾不動為止：

# 一直滾動到最底部js1 = return document.body.scrollHeightjs2 = window.scrollTo(0, document.body.scrollHeight)old_scroll_height = 0while browser.execute_script(js1) >= old_scroll_height: old_scroll_height = browser.execute_script(js1) browser.execute_script(js2) time.sleep(1)

scrollTo() 方法可把內容滾動到指定的坐標:

參數描述xpos必需。要在窗口文檔顯示區左上角顯示的文檔的 x 坐標ypos必需。要在窗口文檔顯示區左上角顯示的文檔的 y 坐標。

這裡用到了scrollHeight，它和ClientHeight還有OffsetHeight有什麼區別呢？

scrollHeight

offsetHeight：包括內容可見部分的高度，border，可見的padding，水平方向的scrollbar（如果存在）；不包括margin。

clientHeight：包括內容可見部分的高度，可見的padding；不包括border，水平方向的scrollbar，margin。

scrollHeight：包括內容的高度（可見與不可見），padding（可見與不可見）；不包括border，margin。

Chrome

代碼寫好了，接下來就用selenium+phantomJs大法實驗一下！滾到底後把項目列表提取出來看一下：

browser = webdriver.PhantomJs()url = https://www.kaistart.com/project/more.htmltry: browser.get(url) wait = ui.WebDriverWait(browser, 20) wait.until(lambda dr: dr.find_element_by_class_name(project-detail).is_displayed()) # 一直滾動到最底部 js1 = return document.body.scrollHeight js2 = window.scrollTo(0, document.body.scrollHeight) old_scroll_height = 0 while browser.execute_script(js1) >= old_scroll_height: old_scroll_height = browser.execute_script(js1) browser.execute_script(js2) time.sleep(1) sel = Selector(text=browser.page_source) proj_list = sel.xpath(//li[@class="project-li"])

程序運行結束後，顯示proje_list裡面只有25個元素，而我們自己手動滾的話卻有100多個，明顯有bug。想定位這個問題很簡單，截圖即可，看看為什麼停在第25個項目。對，phantomJs雖然沒有圖形界面，但是可以截圖。

!important;">browser.save_screenshot(debug.png)</pre>

這樣就會把圖片保存在項目目錄，打開看看：

圖片

發現項目頁只能顯示一行，這說明網頁不兼容phantomJs，這倒不是什麼新鮮事，換一個瀏覽器試試唄。第一期介紹過，selenium是支持所有主流瀏覽器的。比如換成Chrome，只需改一行代碼：

再次運行程序，不出所料，Chrome瀏覽器彈出來，不僅能夠正確顯示頁面，還一直在滾動：

image

項目全都刷出來了，想爬什麼就爬吧！什麼？你問我在Linux伺服器上怎麼爬？純命令行的那種嗎？

image

虛擬X Server

PhantomJs是無界面瀏覽器，可以在Linux伺服器上正常運行，但Chrome會在調用GUI介面時報錯。既然Linux伺服器沒有圖形介面服務，也就是X Server，我們就要虛擬出來一個，才能讓Chrome正常運行。於是找到了Xvfb（X virtual frame buffer）,它可以用來作為完整X服務程序的替代。Xvfb有一個Python的封裝叫PyVirtualDisplay，我們就用它來解決這個問題。

安裝：

pip install pyvirtualdisplay

用法：

from selenium import webdriverfrom pyvirtualdisplay import Displaydisplay = Display(visible=0, size=(800, 600))display.start()driver = webdriver.Chrome()driver.get("http://www.baidu.com")print (driver.page_source.encode(utf-8))driver.quit()display.stop()

運行程序後列印出了baidu的頁面內容，現在可以完美運行Chrome了。需要補充的是，在Linux上運行Chrome需要額外安裝一個ChromeDriver，比較簡單，就不詳細介紹了。

分散式系統

既然我們要打造自己的分散式爬蟲平台，就要先知道什麼是分散式系統，百度百科是這樣定義的：

分散式系統（distributed system）是建立在網路之上的軟體系統。正是因為軟體的特性，所以分散式系統具有高度的內聚性和透明性。因此，網路和分散式系統之間的區別更多的在於高層軟體（特別是操作系統），而不是硬體。內聚性是指每一個資料庫分布節點高度自治，有本地的資料庫管理系統。透明性是指每一個資料庫分布節點對用戶的應用來說都是透明的，看不出是本地還是遠程。在分散式資料庫系統中，用戶感覺不到數據是分布的，即用戶不須知道關係是否分割、有無副本、數據存於哪個站點以及事務在哪個站點上執行等。

這個定義不太好理解，看看書上怎麼說。《分散式系統概念與設計》一書中對分散式系統做了如下定義：

分散式系統是一個硬體或軟體組件分布在不同的網路計算機上，彼此之間僅僅通過消息傳遞進行通信和協調的系統。

《分散式系統原理和范型》一書中是這樣定義分散式系統的：

分散式系統是若干獨立計算機的集合，這些計算機對於用戶來說就像是單個相關係統。

簡單來說就是一群獨立計算機集合共同對外提供服務，但是對於系統的用戶來說，就像是一台計算機在提供服務一樣。分散式意味著可以採用更多的普通計算機（相對於昂貴的大型機）組成分散式集群對外提供服務。計算機越多，CPU、內存、存儲資源等也就越多，能夠處理的並發訪問量也就越大。

從分散式系統的概念中我們知道，各個主機之間通信和協調主要通過網路進行，所以，分散式系統中的計算機在空間上幾乎沒有任何限制，這些計算機可能被放在不同的機柜上，也可能被部署在不同的機房中，還可能在不同的城市中，對於大型的網站甚至可能分布在不同的國家。但是，無論空間上如何分布，一個標準的分散式系統應該具有以下幾個主要特徵：

透明性

系統資源被所有計算機共享。每台計算機的用戶不僅可以使用本機的資源，還可以使用本分散式系統中其他計算機的資源。

同一性

系統中的若干台計算機可以互相協作來完成一個共同的任務，或者說一個程序可以分布在幾台計算機上並行地運行。

通信性

系統中的計算機都可以通過通信來交換信息。

下一步

今天先了解下基本概念，熱熱身。整個系統的架構及流程留到下次一起奉上。下期再見！

需要項目實戰資料+面試題資料，請點擊關注+轉發此文，然後私信我"資料"，就可以獲取資料啦！！