Python網路爬蟲實戰三例(附視頻講解)
之前我寫的爬蟲都是將已知的固定數據的網址存到list中,然後遍歷list中的網址。這次針對簡書,我們使用遞歸來試一下。
什麼是遞歸
程序(或函數)調用自身的編程技巧稱為遞歸( recursion)。一個過程或函數在其定義或說明中有直接或間接調用自身的一種方法,它通常把一個大型複雜的問題層層轉化為一個與原問題相似的規模較小的問題來求解。遞歸的優點
1、降低問題難度2、大大地減少了程序的代碼量
3、遞歸的能力在於用有限的語句來定義對象的無限集合 本案例視頻講解如下:【python爬蟲】之如何抓取高質量簡書用戶 - 騰訊視頻 https://v.qq.com/x/page/a0385fr6pmp.html
二、抓取淘寶評論
之前我水平有限,對於淘寶評論這種動態網頁,由於數據在網頁源碼中是找不到的,所以無法抓取數據,只能使用selenium模仿人操控瀏覽器來抓數據,優點是可見容易且不宜被淘寶公司封鎖;缺點是速度太慢。
經過今天一天的鑽研,終於學會分析數據包,而且淘寶評論的數據包都是以json格式傳輸的。除了學會抓包,還要會從json中提取出想要的評論數據才行。
實現難點:
1、分析數據包,找到淘寶評論傳輸用的網址,分析網址特點 2、如何從找到的數據包中,從json格式內容中得到想要的數據本案例視頻講解如下:
【python爬蟲】之淘寶評論抓取 - 騰訊視頻 https://v.qq.com/x/page/a03841rsxnu.html
三、爬取豆瓣電影名
豆瓣是我很喜歡的平台,一般大家都會去豆瓣看影評,書評,根據評論決定自己是否觀看電影或者入手書籍。所以有很多經濟管理類的學生有這方面的數據採集需求,當然,我也是其中的一員,對這方面的興趣促使我學的python。
那麼寫爬蟲前,一定要學會分析網頁結構,定位到你要抓的數據所在的節點標籤。定位方法有以下幾種:
如果這個標籤是整個html網頁唯一的一個標籤,那麼直接找這個標籤就可以。
如果這個標籤不是唯一的,那麼你可以往該節點的父節點入手,如果父節點是唯一的,那麼先定位父節點,然後再選出父節點的子節點。此時子節點就是目標節點。
本案例視頻講解如下:
【python爬蟲系列之】爬豆瓣電影小案例01 - 騰訊視頻 https://v.qq.com/x/page/n03841o3mx9.html
作者將於3月24日(周五)晚上21:00—22:00在Python直播間與大家分享Python網路爬蟲基礎知識。
大家好,我是Python萌娘阿喵醬,
么么噠~~(*  ̄3)(ε ̄ *)
-----------------------------------------
微信公眾號:Python中文社區
會員登記:Python中文社區會員登記
社區維基:python-chinese.GitHub.io
GitHub組織:PyCN
加入PyCN GitHub組織:Python開發者GitHub組織PyCN成員申請表
申請成為專欄作者:Python中文社區專欄作者申請表
郵箱:pythonpost@163.com
-----------------------------------------
Python中文開發者的精神家園
作者:鄧旭東 Python中文社區專欄作者
博客地址:鄧旭東HIT - 簡書
-----------------------------------------
推薦閱讀:
※定位後端開發,有哪些書籍值得推薦?
※我用Python爬美圖,妹子多多,自己動手不孤獨
※用Pyador進行『異常檢測』: 開發無監督機器學習工具庫(一)