Python數據分析及可視化實例之爬蟲源碼(02)

系列文章總目錄:Python數據分析及可視化實例目錄


1.背景介紹

(1)今天有人問怎麼採集這個網站;本打算講Cookies免密登錄今日頭條,但一看這個網站剛好是Table表單,順便講一下CSV的保存也是不錯的,當然Cookies還得預習一下。

(3)源碼重點掌握:Requests請求,Beautifulsoup提取Table標籤內容要比Re簡單多了,不信你可以正則試一下;CSV保存。分析這個網站源碼構造請求鏈接沒有任何難度,就不贅述。

(4)預留作業:今日頭條實現Cookie免密登錄(難度☆☆);如果登錄成功了,下節內容就可以跳過;然後直接Ajax數據採集(難度☆☆),POST留言(難度☆)。

(5)凡是在該源碼基礎上改編的爬蟲,可以將源碼投稿到本專欄;錄用即分享若干私藏中、英文Python資料,源碼,視頻。

2.源碼

# coding:utf-8nimport requests,csvnfrom bs4 import BeautifulSoupnnheaders = {n # Host: Wx:nemoon,n Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8,n User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0,n Accept-Language: zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3,n Connection: keep-alive,n Accept-Encoding:gzip, deflate,n Upgrade-Insecure-Requests:1n} # 請求頭,蛇無頭不行,帶上吧,後面會講到用Cookie實現單賬號免密登錄nn# 下期預告:n# 1,在請求前Host,Referer,Cookies以字典的形式直接定義n# 2,直接在請求前設置Cookiesn # s.cookies.set(mycookie,value) #設置cookiesn# 3, 在請求過程中更新Cookiesn # c = requests.cookies.RequestsCookieJar()#定義一個cookie對象n # c.set(cookie-name, cookie-value)#增加cookie的值n # s.cookies.update(c)#更新s的cookien# 4,刪除Cookiesn # s.cookies.clear()#刪除cookies,也可以使用s.cookies=None的方式將所有cookies刪除nns = requests.session() # 保留會話nnndef bs_test(text):n soup = BeautifulSoup(text, "lxml")n table_trs = soup.find_all(tr,{class:hover})n # 預留小作業,提取表頭,並寫入csvn for i in table_trs:n content=[ i_in.text for i_in in i.find_all(td)]n print(content)n with open(file_name.csv, a, newline=) as f: # 刪除空格n f_csv = csv.writer(f)n f_csv.writerow(content)n f.close()nnnif __name__ == __main__:n # base_url = http://www.jxyycg.cn/yzxt/publicity/view?id=eb1a21f2ab6a40119544e9048417bc1f&pageNo=2n for i in range(1) : # 用1頁測試一下n url = http://www.jxyycg.cn/yzxt/publicity/view?id=eb1a21f2ab6a40119544e9048417bc1f&pageNo= +str(i+1)n req_text = s.get(url).textn # print(req_text) # BSn urls = bs_test(req_text)n

膠水語言博大精深,

本主只得一二為新人帶路,

老鳥可去另一專欄:Python中文社區

Python數據分析及可視化實例目錄


最後,別只收藏不關注哈

推薦閱讀:

利用爬蟲和樹莓派3打造自己的語音天氣鬧鐘
爬取34萬專欄文章:304篇10K+高贊文章匯總
寫爬蟲很簡單但也很難(附某美女站爬蟲源碼)
從零開始寫Python爬蟲 --- 爬蟲應用:IT之家熱門段子(評論)爬取

TAG:Python | 爬虫 | 八爪鱼采集器 |