Python網路爬蟲實戰三例（附視頻講解）

02-02

一、抓取簡書用戶信息

之前我寫的爬蟲都是將已知的固定數據的網址存到list中，然後遍歷list中的網址。這次針對簡書，我們使用遞歸來試一下。

什麼是遞歸

程序（或函數）調用自身的編程技巧稱為遞歸（ recursion）。一個過程或函數在其定義或說明中有直接或間接調用自身的一種方法，它通常把一個大型複雜的問題層層轉化為一個與原問題相似的規模較小的問題來求解。

遞歸的優點

1、降低問題難度

2、大大地減少了程序的代碼量

3、遞歸的能力在於用有限的語句來定義對象的無限集合

本案例視頻講解如下：

【python爬蟲】之如何抓取高質量簡書用戶 - 騰訊視頻 https://v.qq.com/x/page/a0385fr6pmp.html

二、抓取淘寶評論

之前我水平有限，對於淘寶評論這種動態網頁，由於數據在網頁源碼中是找不到的，所以無法抓取數據，只能使用selenium模仿人操控瀏覽器來抓數據，優點是可見容易且不宜被淘寶公司封鎖；缺點是速度太慢。

經過今天一天的鑽研，終於學會分析數據包，而且淘寶評論的數據包都是以json格式傳輸的。除了學會抓包，還要會從json中提取出想要的評論數據才行。

實現難點：

1、分析數據包，找到淘寶評論傳輸用的網址，分析網址特點

2、如何從找到的數據包中，從json格式內容中得到想要的數據

本案例視頻講解如下：

【python爬蟲】之淘寶評論抓取 - 騰訊視頻 https://v.qq.com/x/page/a03841rsxnu.html

三、爬取豆瓣電影名

豆瓣是我很喜歡的平台，一般大家都會去豆瓣看影評，書評，根據評論決定自己是否觀看電影或者入手書籍。所以有很多經濟管理類的學生有這方面的數據採集需求，當然，我也是其中的一員，對這方面的興趣促使我學的python。

那麼寫爬蟲前，一定要學會分析網頁結構，定位到你要抓的數據所在的節點標籤。定位方法有以下幾種：

本案例視頻講解如下：

【python爬蟲系列之】爬豆瓣電影小案例01 - 騰訊視頻 https://v.qq.com/x/page/n03841o3mx9.html

作者將於3月24日（周五）晚上21:00—22:00在Python直播間與大家分享Python網路爬蟲基礎知識。

大家好，我是Python萌娘阿喵醬，

么么噠~~(* ￣3)(ε￣ *)

-----------------------------------------

微信公眾號：Python中文社區

會員登記：Python中文社區會員登記

社區維基：python-chinese.GitHub.io

GitHub組織：PyCN

加入PyCN GitHub組織：Python開發者GitHub組織PyCN成員申請表

申請成為專欄作者：Python中文社區專欄作者申請表

郵箱：pythonpost@163.com

-----------------------------------------

Python中文開發者的精神家園

作者：鄧旭東 Python中文社區專欄作者

博客地址：鄧旭東HIT - 簡書

-----------------------------------------