新媒體人必會的傻瓜式爬蟲工具：上手 Web Scraper 的 5 個步驟

01-29

做新媒體運營，很多時候會需要用到數據來幫助工作，比如你新進到一家公司做新媒體內容編輯，那你需要盤點公司已有的內容資產，避免重複生產內容。這時候就需要把網頁上的數據給扒下來，放在一起，才會一目了然。從網頁上扒數據，最好用的方法當然是爬蟲工具啦。很多人都以為爬蟲很難學吧？我一開始也這麼認為的，直到我遇到了 Web Scraper 這個工具，才知道原來爬網頁數據也可以這麼簡單。下面，我就現身說法，講解一個小白是怎麼快速上手 Web Scraper 的。

步驟一：下載 Web Scraper

Web Scraper 是 Chrome 瀏覽器上的一個插件，你需要翻牆進入 Chrome 應用商店，下載 Web Scraper 插件。

步驟二：打開 Web Scraper

先打開一個你想爬數據的網頁，比如我想爬今日頭條上「吳曉波頻道」這個賬戶的文章標題、時間、評論數，那我就先打開它，再一一進行操作。

然後用快捷鍵 Ctrl + Shift + I / F12 打開 Web Scraper。

步驟三：新建一個 Sitemap

點擊 Create New Sitemap，裡面有兩個選項，import sitemap是指導入一個現成的 sitemap，咱小白一般沒有現成的，所以一般不選這個，選 create sitemap 就好。然後進行這兩個操作：

Sitemap Name：代表你這個 Sitemap 是適用於哪一個網頁的，所以你可以根據網頁來自命名，不過需要使用英文字母，比如我抓的是今日頭條的數據，那我就用 toutiao 來命名；
Sitemap URL：把網頁鏈接複製到 Star URL 這一欄，比如圖片里我把「吳曉波頻道」的主頁鏈接複製到了這一欄。

步驟四：設置這個 Sitemap

整個 Web Scraper 的抓取邏輯是這樣：設置一級 Selector，選定抓取範圍；在一級 Selector 下設置二級 Selector，選定抓取欄位，然後抓取。

咱們換個接地氣的例子，假如你要獲取福建人的姓名、性別和年齡這三個要素，那麼你得這麼做：首先要定位到福建省，然後再在福建省裡面去定位姓名、性別、年齡。

在這裡，一級 Selector 表示你要在中國這個大的國家圈出福建省，二級Selector 表示你要在福建省的人口中圈定姓名、性別、年齡這三個要素。

對於文章而言，一級 Selector 就是你要把這一塊文章的要素圈出來，這個要素可能包含了標題、作者、發布時間、評論數等等，然後我們再在二級 Selector 中挑出我們要的要素，比如標題、作者、閱讀數。

下面我們來拆解這個設置一級、二級 Selector 的工作流：

1. 點擊 Add new selector 創建一級 Selector，按照以下步驟操作：

輸入id：id 代表你抓取的整個範圍，比如這裡是文章，我們可以命名為 wuxiaobo-articles；
選擇 Type：Type 代表你抓取的這部分的類型，比如元素／文本／鏈接，因為這個是整個文章要素範圍選取，我們需要用 Element 來先整體選取（如果這個網頁需要滑動載入更多，那就選 Element Scroll Down）；
勾選 Multiple：勾選 Multiple 前面的小框，因為你要選的是多個元素而不是單個元素，當我們勾選的時候，爬蟲插件會幫助我們識別多篇同類的文章；
保留設置：其餘未提及部分保留默認設置。