爬蟲之常用的chrome技巧?

如題,小白,對網頁也不甚了解。嘗試學習爬蟲,許多人推薦chrome查看網頁源代碼作為輔助。請問各位大牛,有什麼chrome常用的查看技巧?


右鍵,Inspect...沒啥技巧,推薦 Head First HTML CSS, JavaScript高級程序設計,這兩本看完,網頁基本都能看懂,爬蟲就好設計了。


使用 Chrome 瀏覽器插件 Web Scraper 可以輕鬆實現網頁數據的爬取,可以實現不寫代碼,指哪爬哪的目標。

當然你得爬牆去chrome一趟:

Web Scraper 的學習內容

雖然簡單,但你還得學點東西。比起寫代碼,已經強很多了。

  1. 官網中的視頻教程
    http://webscraper.io/tutorials
  2. 知乎@陳大欣 的回答 中寫了詳細的步驟,並錄製了視頻教程。
  • 視頻教程(1):http://www.bilibili.com/video/av9664397/
  • 視頻教程(2):http://www.bilibili.com/video/av9708200/
  • 這個問題來源 零基礎如何學爬蟲技術? @陳大欣 在文章中把 Excel 爬蟲,web scraper,代碼爬蟲做了比較分析

http://weixin.qq.com/r/YEOium-EmjLlrSvZ9xZy (二維碼自動識別)

關注這個公眾號的都是奇才。


Chrome 開發者工具

Elements面板

1. 右鍵審查元素打開的面板, 最簡單的查找Ctrl+F

&

2. 使用CSS Selector 和Xpath 進行查找:

同樣是在上圖的查找框中, 支持CSS 以及Xpath, 寫爬蟲的時候最好的驗證工具

&3. 右鍵直接複製或者打開HTML代碼中的鏈接.

3. 右鍵直接複製或者打開HTML代碼中的鏈接.

4. F2 直接編輯源代碼, 這個在寫MD時需要用一些網頁內的表格時特別好用.

NewWork面板

1. 右上角的停止可清空是最基本的使用, 不然的話你會被無止境的URL給淹沒

&2. 重點: XHR

2. 重點: XHR

XMLHttpRequest is an API that provides client functionality for transferring data between a client and a server. It provides an easy way to retrieve data from a URL without having to do a full page refresh. This enables a Web page to update just a part of the page without disrupting what the user is doing. XMLHttpRequest is used heavily in AJAX programming.

爬蟲的難點之一, AJAX動態頁面怎麼查找API? 全都在XHR面板呢.

一個頁面或許有上百條網路連接, 但是XHR就那麼兩三條, 用這個面板來快速過濾.

最後: 全局檢索

你想要的數據並不在HTML中, 也不在XHR中, 但是它確實出現在網頁上了, 那麼這個數據到底來自哪裡? 一個一個翻鏈接??讓我們用全局檢索吧:

You want to perform a text string search across all of the text contained within all of the source files used by the current HTML page.

Routine: From any panel use a keyboard shortcut (win: Ctrl+Shift+f, mac: Cmd+Opt+f) to open up the search panel. Enter any text you』d like to be found within the current HTML page. Note that clicking on one of the results (line number from source) will open the source in the source panel.

Ctrl+Shift+f, 就這麼一個快捷鍵, 可以檢索所有下載的文本資源.

Chrome插件

1. 一鍵禁用JavaScript

當我們開始製作爬蟲的時候,最重要的一點就是確定這個網頁是靜態的還是動態的, JS是否會影響我們需要爬取的數據, 而最好的解決辦法就是禁用瀏覽器JS, 下面這個插件只提供一個功能, 一鍵禁用JS:


推薦閱讀:

拿諾貝爾獎可以長壽?——從爬蟲到簡單數據分析
QQ空間動態爬蟲
左手用R右手Python系列17——CSS表達式與網頁解析

TAG:Python | Chrome使用技巧 | 網頁爬蟲 |