Python3新手爬蟲求教?

各位大家好,我是剛接觸Python的新手小白一個,最近學到了爬蟲,對其產生了興趣,
但我發現網上很多資料以及源碼都是基於Python2的,而我學的是Python3,所以想請教一下有什麼適合我這樣新手爬的項目來練練手,如果有不錯的源碼的話,還請不吝分享


Python爬蟲聯想詞視頻和代碼
Python爬蟲聯想詞視頻和代碼 - 知乎專欄

跟黃哥學Python爬蟲抓取代理IP和驗證。
跟黃哥學Python爬蟲抓取代理IP和驗證。 - 知乎專欄
跟黃哥學Python爬蟲抓取代理IP
跟黃哥學Python爬蟲抓取代理IP。 - 知乎專欄


我也是一開始接觸到py3,隨後再py2.7,現在因為工作又繼續用py3。

一開始,明白最基本那幾個庫的用法,樓上都有提及,然後模仿他人的腳本,然後一行一行弄明白,然後嘗試自己寫腳本。

就這樣寫幾個就熟悉了。

我建議一開始爬爬豆瓣啊,大家都喜歡拿豆瓣練手,豆瓣的html也比較好看。


可以看下崔慶才老師的

Python3爬蟲三大案例實戰分享
貓眼電影、今日頭條街拍美圖、淘寶美食 https://edu.hellobi.com/course/156

課程源碼:
今日頭條:https://github.com/Germey/TouTiao
淘寶美食:https://github.com/Germey/TaobaoProduct
貓眼電影:https://github.com/Germey/MaoYan


先學requests bs4 xlsxwriter pymysql庫。
項目可以嘗試,煎蛋網妹子圖(誰不是從妹子圖開始呢,,, ),糗百貼子,豆瓣影評,智聯招聘信息。再往後可以學慣用fd抓包,嘗試抓取移動端APP數據,比如超級課程表貼子信息。再進階,可以用selenium抓取難搞的動態和加密的內容,比如QQ空間說說。
嗯,沒錯,上面的項目都是自學的時候寫的,挺有意思的,題主可以嘗試下 ~


哈哈,強勢推薦慕課網北京理工大學的嵩天老師的爬蟲課,是基於Python3的,哦,對了,我也是用的Python3


發現幾個好玩的,
Adyzng/jd-autobuy
Python爬蟲(一)--豆瓣電影抓站小結(成功抓取Top100電影)
Python 爬蟲:把廖雪峰的教程轉換成 PDF 電子書
python 爬蟲獲取知乎話題 - 掘金


如果想簡單快速上手,選個爬蟲框架就行了,scrapy 六的飛起,中文文檔也很詳細。

爬蟲框架用多了自然而然就有了深刻理解,而且自頂向下,會比直接寫爬蟲達到更高的抽象層次


就我自己最近學習的經驗,在爬蟲的基礎運用中,python2和3的差距其實並不大。我的學習路線是這樣的:先看python3的通用教程,學會基礎語法。我看的是這個
http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
然後書我推薦這本

由淺入深寫的比較詳細,其中最主要的差別就是urllib的用法有些不一樣,但百度一下,也是很容易理解其中區別的。


推薦閱讀:

python正則表達式抓取數據時,有些標籤下有內容,有些標籤下沒有時怎麼辦?
新手小白請教maya python ?

TAG:Python | Python3x | 爬蟲計算機網路 | Python入門 | 網頁爬蟲 |