Python數據分析及可視化實例之爬蟲源碼(03)

系列文章總目錄:Python數據分析及可視化實例目錄


1.背景介紹

(1)話說今日頭條在我乎挖走了『三百勇士』,於是就想知道這些勇士中有木有練Py大法的,是不是真的勇士。本著我不入地獄,誰入地獄的精神,註冊並體驗了一下,我曹,這不就是微信公眾號、快手、秒拍、鬥魚、陌陌、淘寶客網站的雜交嘛。

(2)搜索了一下,響應原來是Json,嚯嚯,Ajax我喜歡,只要找到路徑直接Json.loads(),連BeautifulSoup都省了,更不用說Re神器了,快走起!

別說,關鍵詞聯想還不錯,那麼就多體驗幾個有關於Py大法的關鍵詞,初步看看。

再拉近一點距離,竟然是瀑布流,下拉自動載入頁面,經核實一個關鍵詞就多下拉8頁,每頁20條數據;仔細算算,也就是1個關鍵詞只能獲取160條消息,那麼意味著要採集更多的數據,只能發現更多的關鍵詞。於是我採集一組關鍵詞:

Python學習筆記nPython教程nPython開發nPython函數nPythonnPython3nPython爬蟲nPython基礎nPython網路爬蟲nPython基礎教程nPython編程nPython實戰nPython學習nPython公開課npython手機npython windownpython類npython入門教程npython面試n

(3)Ajax妖怪,哪裡逃:逐條查看響應內容

(4)有路徑,有Json,Perfect。共採集文章1727篇,從評論數量看看頭牌都有哪些?

手動看看評論,你們絕對猜不到,標題黨佔9成,符合頭條的風格。

(5)有NLP基礎的可以對評論進行情感分析(有NLP基礎的還TMD看這篇破文章!)

好吧,POST自動評論,且聽下回分析。。。

2.源碼

# coding:utf-8nimport requestsnimport json, timenn# 本節採用請求頭直接採集n# url = https://www.toutiao.com/search_content/?offset=0&format=json&keyword=python&autoload=true&count=20&cur_tab=1n# https://www.toutiao.com/search_content/?offset=20&format=json&keyword=python&autoload=true&count=20&cur_tab=1n# page = 8*20 最大到offset160nnnpkeywords = Python學習筆記nPython教程nPython開發nPython函數nPythonnPython3nPython爬蟲nPython基礎nPython網路爬蟲nPython基礎教程nPython編程nPython實戰nPython學習nPython公開課npython手機npython windownpython類npython入門教程npython面試.split(n)nnn# print(pkeywords)nnndef get_data(url):n wbdata = requests.get(url).textn data = json.loads(wbdata)n news = data[data]n for n in news:n if title in n:n title = n[title]n comments_count = n[comments_count]n url = n[article_url]n keyword = .join(n[keywords].split(,))n # print(url,|,title,|,keyword,|,comments_count)n line = url + | + title + | + keyword + | + str(comments_count) + nn print(line)n f = open(keyds.txt, a, encoding=utf-8) # TXT文本保存n f.write(line)n f.close()nnif __name__ == __main__:n for kw in pkeywords:n for i in range(9):n url = https://www.toutiao.com/search_content/?offset= + str(n i * 20) + &format=json&keyword= + kw + &autoload=true&count=20&cur_tab=1n print(i, kw, url)n try:n get_data(url)n except:n print(爬蟲掉坑裡了,爬起來繼續)n passn

膠水語言博大精深,

本主只得一二為新人帶路,

老鳥可去另一專欄:Python中文社區

新手可查閱歷史目錄:

Python數據分析及可視化實例目錄


最後,別只收藏不關注哈

推薦閱讀:

GrowingIO用戶行為數據採集和分析實踐
3小時的Python學習成果展示(附源碼)
如何理解用戶行為事件?
如何看待APP採集用戶數據?
如何分析國內知名採集工具的優缺點?

TAG:爬虫计算机网络 | 数据采集 | 八爪鱼采集器 |