新媒體人必會的傻瓜式爬蟲工具:上手 Web Scraper 的 5 個步驟
做新媒體運營,很多時候會需要用到數據來幫助工作,比如你新進到一家公司做新媒體內容編輯,那你需要盤點公司已有的內容資產,避免重複生產內容。這時候就需要把網頁上的數據給扒下來,放在一起,才會一目了然。從網頁上扒數據,最好用的方法當然是爬蟲工具啦。很多人都以為爬蟲很難學吧?我一開始也這麼認為的,直到我遇到了 Web Scraper 這個工具,才知道原來爬網頁數據也可以這麼簡單。下面,我就現身說法,講解一個小白是怎麼快速上手 Web Scraper 的。
步驟一:下載 Web Scraper
Web Scraper 是 Chrome 瀏覽器上的一個插件,你需要翻牆進入 Chrome 應用商店,下載 Web Scraper 插件。
步驟二:打開 Web Scraper
先打開一個你想爬數據的網頁,比如我想爬今日頭條上「吳曉波頻道」這個賬戶的文章標題、時間、評論數,那我就先打開它,再一一進行操作。
然後用快捷鍵 Ctrl + Shift + I / F12 打開 Web Scraper。
步驟三:新建一個 Sitemap
點擊 Create New Sitemap,裡面有兩個選項,import sitemap是指導入一個現成的 sitemap,咱小白一般沒有現成的,所以一般不選這個,選 create sitemap 就好。然後進行這兩個操作:
- Sitemap Name:代表你這個 Sitemap 是適用於哪一個網頁的,所以你可以根據網頁來自命名,不過需要使用英文字母,比如我抓的是今日頭條的數據,那我就用 toutiao 來命名;
- Sitemap URL:把網頁鏈接複製到 Star URL 這一欄,比如圖片里我把「吳曉波頻道」的主頁鏈接複製到了這一欄。
步驟四:設置這個 Sitemap
整個 Web Scraper 的抓取邏輯是這樣:設置一級 Selector,選定抓取範圍;在一級 Selector 下設置二級 Selector,選定抓取欄位,然後抓取。
咱們換個接地氣的例子,假如你要獲取福建人的姓名、性別和年齡這三個要素,那麼你得這麼做:首先要定位到福建省,然後再在福建省裡面去定位姓名、性別、年齡。
在這裡,一級 Selector 表示你要在中國這個大的國家圈出福建省,二級Selector 表示你要在福建省的人口中圈定姓名、性別、年齡這三個要素。
對於文章而言,一級 Selector 就是你要把這一塊文章的要素圈出來,這個要素可能包含了 標題、作者、發布時間、評論數等等,然後我們再在二級 Selector 中挑出我們要的要素,比如標題、作者、閱讀數。
下面我們來拆解這個設置一級、二級 Selector 的工作流:
1. 點擊 Add new selector 創建一級 Selector,按照以下步驟操作:
- 輸入id:id 代表你抓取的整個範圍,比如這裡是文章,我們可以命名為 wuxiaobo-articles;
- 選擇 Type:Type 代表你抓取的這部分的類型,比如元素/文本/鏈接,因為這個是整個文章要素範圍選取,我們需要用 Element 來先整體選取(如果這個網頁需要滑動載入更多,那就選 Element Scroll Down);
- 勾選 Multiple:勾選 Multiple 前面的小框,因為你要選的是多個元素而不是單個元素,當我們勾選的時候,爬蟲插件會幫助我們識別多篇同類的文章;
- 保留設置:其餘未提及部分保留默認設置。
2. 點擊 select 選擇範圍,按照以下步驟操作:
- 選擇範圍:用滑鼠選擇你要爬取數據的範圍,綠色是待選區域,用滑鼠點擊後變為紅色,才是選中了這塊區域;
- 多選:不要只選一個,下面的也要選,否則爬出來的數據也只有一行;
- 完成選擇: 記得點 Done Selecting;
- 保存:點擊 Save Selector。
3. 設置好了這個一級的 Selector 之後,點進去設置二級的 Selector,按照以下步驟操作:
- 新建 Selector:點擊 Add new selector ;
- 輸入 id:id 代表你抓取的是哪個欄位,所以可以取該欄位的英文,比如我要選「作者」,我就寫「writer」;
- 選擇 Type:選 Text,因為你要抓取的是文本;
- 勿勾選 Multiple:不要勾選 Multiple 前面的小框,因為我們在這裡要抓取的是單個元素;
- 保留設置:其餘未提及部分保留默認設置。
4. 點擊 select,再點擊你要爬取的欄位,按照以下步驟操作:
- 選擇欄位:這裡爬取的欄位是單個的,用滑鼠點擊該欄位即可選定,比如要爬標題,那就用滑鼠點擊某篇文章的標題,當欄位所在區域變紅即為選中;
- 完成選擇:記得點 Done Selecting;
- 保存:點擊 Save Selector。
5. 重複以上操作,直到選完你想爬的欄位。
步驟五:爬取數據
之所以說 Web Scraper 是傻瓜式爬蟲工具,就是因為只需要設置完所有的 Selector,就可以開始爬數據了,怎麼樣,是不是簡單?
那麼怎麼開始爬數據呢?只需要一個簡單的操作:點擊 Scrape,然後點 Start Scraping,會彈出一個小窗,然後辛勤的小爬蟲就開始工作了。你會得到一個列表,上面有你想要的所有數據。
如果你希望把這些數據做一個排序,比如按照閱讀量、贊數、作者等指標排序,讓數據更一目了然,那麼你可以點擊 Export Data as CSV,把它導入 Excel 表裡。
導入 Excel 表格之後,你就可以對數據進行篩選了。
以上就是快速上手 Web Scraper 的所有操作過程,連我這種懶癌 + 手殘都能在 5 分鐘之內搞定,相信你也可以指哪兒爬哪兒,完全 OK 的啦。
如果想要更系統地學習新媒體營銷,請立即免費申請加入「新媒體自習室」課程
推薦閱讀:
※人生苦短,我用Python(寫在前面)
※我這樣破解pexels獲取的高清原圖
※60秒GET小技能-爬蟲快速構建post參數法
※Python爬蟲技巧一之設置ADSL撥號伺服器代理
※從零開始寫Python爬蟲 --- 3.2 爬蟲實踐:獲取快代理