爬豆瓣電影名的小案例（附視頻操作）

01-27

之前的文章一直都是代碼，文字講解很少。從今天開始，我想每天講解一個爬蟲的小案例，可能是爬豆瓣，可能是爬知乎，也可能去爬淘寶評論，不一而足。只要有趣有用就好。

豆瓣是我很喜歡的平台，一般大家都會去豆瓣看影評，書評，根據評論決定自己是否觀看電影或者入手書籍。所以有很多經濟管理類的學生有這方面的數據採集需求，當然，我也是其中的一員，對這方面的興趣促使我學的python。

那麼寫爬蟲前，一定要學會分析網頁結構，定位到你要抓的數據所在的節點標籤。定位方法有以下幾種：

1. 如果這個標籤是整個html網頁唯一的一個標籤，那麼直接找這個標籤就可以。

2. 如果這個標籤不是唯一的，那麼你可以往該節點的父節點入手，如果父節點是唯一的，那麼先定位父節點，然後再選出父節點的子節點。此時子節點就是目標節點。

方法大體就是這樣，現在我們開始

我們今天只抓豆瓣電影的電影名。

首先我們分析html中目標內容所在的節點，打開開發者工具

a標籤一般情況都不唯一的，那麼我們先找a的父親<div class="pl2">算賬，再找他孩子a標籤。找到div後，取他內部的標籤時候用到Beautifulsoup對象的contents方法，返回div內部數據的列表。然後對內部數據取文本內容，用到get_text()

好了，我附上代碼

import requestsnnfrom bs4 import BeautifulSoupnnurl =https://movie.douban.com/chartnnresponse = requests.get(url).textnnbsObj = BeautifulSoup(response,html.parser) #第二個參數也可以用lxmlnnbsObj = bsObj.find_all(div,{class:pl2})nnfor tag in bsObj:nn div_tag = tag.contents[1].get_text()nn name = div_tag.strip(n).replace( ,) +nnn print(name)n

附上我任務的視頻操作

【python爬蟲系列之】爬豆瓣電影小案例—在線播放—優酷網，視頻高清在線觀看http://v.youku.com/v_show/id_XMjY0MDA4OTQ5Ng==.html?spm=a2hzp.8244740.userfeed.5!2~5~5~5!3~5~A

-------------

歡迎關注公眾號：大鄧帶你玩轉python

Python3爬蟲三大案例實戰分享貓眼電影、今日頭條街拍美圖、淘寶美食 Python3爬蟲三大案例實戰分享

今日頭條：Germey/TouTiao

淘寶美食：Germey/TaobaoProduct

貓眼電影：Germey/MaoYan