爬豆瓣電影名的小案例(附視頻操作)
之前的文章一直都是代碼,文字講解很少。從今天開始,我想每天講解一個爬蟲的小案例,可能是爬豆瓣,可能是爬知乎,也可能去爬淘寶評論,不一而足。只要有趣有用就好。
豆瓣是我很喜歡的平台,一般大家都會去豆瓣看影評,書評,根據評論決定自己是否觀看電影或者入手書籍。所以有很多經濟管理類的學生有這方面的數據採集需求,當然,我也是其中的一員,對這方面的興趣促使我學的python。
那麼寫爬蟲前,一定要學會分析網頁結構,定位到你要抓的數據所在的節點標籤。定位方法有以下幾種:
1. 如果這個標籤是整個html網頁唯一的一個標籤,那麼直接找這個標籤就可以。
2. 如果這個標籤不是唯一的,那麼你可以往該節點的父節點入手,如果父節點是唯一的,那麼先定位父節點,然後再選出父節點的子節點。此時子節點就是目標節點。
方法大體就是這樣,現在我們開始
我們今天只抓豆瓣電影的電影名。
首先我們分析html中目標內容所在的節點,打開開發者工具
a標籤一般情況都不唯一的,那麼我們先找a的父親<div class="pl2">算賬,再找他孩子a標籤。找到div後,取他內部的標籤時候用到Beautifulsoup對象的contents方法,返回div內部數據的列表。然後對內部數據取文本內容,用到get_text()
好了,我附上代碼
import requestsnnfrom bs4 import BeautifulSoupnnurl =https://movie.douban.com/chartnnresponse = requests.get(url).textnnbsObj = BeautifulSoup(response,html.parser) #第二個參數也可以用lxmlnnbsObj = bsObj.find_all(div,{class:pl2})nnfor tag in bsObj:nn div_tag = tag.contents[1].get_text()nn name = div_tag.strip(n).replace( ,) +nnn print(name)n
附上我任務的視頻操作
【python爬蟲系列之】爬豆瓣電影小案例—在線播放—優酷網,視頻高清在線觀看http://v.youku.com/v_show/id_XMjY0MDA4OTQ5Ng==.html?spm=a2hzp.8244740.userfeed.5!2~5~5~5!3~5~A
-------------
歡迎關注公眾號:大鄧帶你玩轉python
Python3爬蟲三大案例實戰分享 貓眼電影、今日頭條街拍美圖、淘寶美食 Python3爬蟲三大案例實戰分享
今日頭條:Germey/TouTiao
淘寶美食:Germey/TaobaoProduct
貓眼電影:Germey/MaoYan
推薦閱讀:
※我用Hexo寫博客
※從零開始寫Python爬蟲 --- 1.6 爬蟲實踐: DOTA'菠菜'結果查詢
※《Python Linux系統管理與自動化運維》收到的評價
※發布Python桌面應用程序(入門)
※100行深度學習文本分類