有什麼好的python3爬蟲入門教程或書籍嗎?
我想學用python3.4寫爬蟲,但是好多教程都是2.7的,即使是3.x的也是特別不詳細。求推薦幾個好的教程,不勝感激。
引用某位大神的話,學習Python沒有比文檔更好的教程了。
如果是爬蟲路線的話:
1.先熟悉語言,看python官方文檔http://docs.pythontab.com/python/python3.4/introduction.html
2.爬蟲庫文檔,包括requests和beautifulsoup
http://cn.python-requests.org/zh_CN/latest/ https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
會了上面的三個基本就算入門了吧,後面用什麼庫就有很多選擇了。
比如:
scrapy:Scrapy 1.0 文檔(未完成,只更新了intro部分,請謹慎參考)
selenium:python3初識selenium - lvmememe - 博客園
上面推薦的都是中文文檔,個人覺得學習成本小一些,如果執意要看英文文檔當然也是可以的|?д??)
Python3爬蟲視頻學習教程 | 靜覓
大綱是這個樣子的:
一、環境篇
- Python3+Pip環境配置
- MongoDB環境配置
- Redis環境配置
- MySQL環境配置
- Python多版本共存配置
- Python爬蟲常用庫的安裝
二、基礎篇
- 爬蟲基本原理
- Urllib庫基本使用
- Requests庫基本使用
- 正則表達式基礎
- BeautifulSoup詳解
- PyQuery詳解
- Selenium詳解
三、實戰篇
- 使用Requests+正則表達式爬取貓眼電影
- 分析Ajax請求並抓取今日頭條街拍美圖
- 使用Selenium模擬瀏覽器抓取淘寶商品美食信息
- 使用Redis+Flask維護一個動態代理池
- 使用代理處理反爬抓取微信文章
四、框架篇
- PySpider框架基本使用及抓取TripAdvisor實戰
- PySpider架構概述及用法詳解
- Scrapy框架的安裝
- Scrapy框架基本使用
- Scrapy命令行詳解
- Scrapy中選擇器的用法
- Scrapy中Spiders的用法
- Scrapy中Item Pipeline的用法
- Scrapy中Download Middleware的用法
- Scrapy爬取知乎用戶信息實戰
五、分散式篇
- Scrapy分散式原理及Scrapy-Redis源碼解析
- Scrapy分散式架構搭建抓取知乎
- Scrapy分散式的部署詳解
大家好哈,現在呢靜覓博客已經兩年多啦,可能大家過來更多看到的是爬蟲方面的博文,首先非常感謝大家的支持,希望我的博文對大家有幫助!
之前我寫了一些Python爬蟲方面的文章,Python爬蟲學習系列教程,涉及到了基礎和進階的一些內容,當時更多用到的是Urllib還有正則,後來又陸續增加了一些文章,在學習過程中慢慢積累慢慢成型了一套算不上教程的教程,後來有越來越多的小夥伴學習和支持我感到非常開心,再次感謝大家!
不過其實這些教程總的來說有一些問題:
- 當時用的Python2寫的,剛寫的時候Scrapy這個框架也沒有支持Python3,一些Python3爬蟲庫也不怎麼成熟,所以當時選擇了Python2。但到現在,Python3發展迅速,爬蟲庫也越來越成熟,而且Python2在不久的將來就會停止維護了,所以慢慢地,我的語言重心也慢慢轉向了Python3,我也相信Python3會成為主流。所以說之前的一套課程算是有點過時了,相信大家肯定還在尋找Python3的一些教程。
- 當時學習的時候主要用的urllib,正則,所以這些文章的較大篇幅也都是urllib和正則的一些東西,後來的一些高級庫都是在後面慢慢加的,而且一些高級的框架用法也沒有做深入講解,所以感覺整個內容有點頭重腳輕,安排不合理。而且現在分散式越來越火,那麼分散式爬蟲的應用相必也是越來越廣泛,之前的課程也沒有做系統講解。
- 在介紹一些操作的時候可能介紹不全面,環境的配置也沒有兼顧各個平台,所以可能有些小夥伴摸不著頭腦,可能卡在某一步不知道接下來是怎麼做的了。
那麼綜合上面的問題呢,最近我花了前前後後將近一個月的時間錄製了一套新的Pyhthon3爬蟲視頻教程,將我之前做爬蟲的一些經驗重新梳理和整合,利用Python3編寫,從環境配置、基礎庫講解到案例實戰、框架使用,最後再到分散式爬蟲進行了比較系統的講解。
上面就是課程大綱。
整個課程是從小白起點的,從環境配置和基礎開始講起,環境安裝部分三大平台都有介紹,實戰的部分我是一邊寫一邊講解,還有一些分散式爬蟲的搭建流程也做了介紹。
不過這個課程是收費的,其實裡面也包含了我學習爬蟲以來的經驗和汗水,我在做講解的時候也會把我學習爬蟲的一些思路和想法講解出來,避免大家走一些彎路,希望大家可以支持一下!
不過在這裡有免費的視頻,是屬於整個課程的一部分,大家可以直接觀看
Python3爬蟲三大案例實戰分享
整套視頻課程放在天善智能這邊了,大家如果感興趣的話可以直接在這裡購買,499元。
如果您想要購買的話,友情提示您:
請在電腦PC端購買!請在電腦PC端購買!請在電腦PC端購買!
課程鏈接如下:
自己動手,豐衣足食!Python3網路爬蟲實戰案例
最後的最後希望大家可以多多支持!非常感謝!知識就是力量!也希望我的課程能為您創造更大的財富!
就樓上說的。我用的requests和urllib,去官網看看文檔,裡面有一些例子。不懂的可以stackoverflow
我正在學,也在寫,把學的內容組織起來寫進博客了。追我博客吧。掙脫不足與蒙昧
最近在整理爬蟲博客,歡迎訪問,爬蟲從入門到放棄系列,,,持續更新中http://pythonsite.com
當然是嵩天教授的書了,書寫的很不錯,通俗易懂,更關鍵在中國大學mooc上有對的授課視頻,相當不錯,建議題主看一下,不是打廣告。
學爬蟲,我只推薦一本:
《用Python寫網路爬蟲》
Richard Lawson 著/李斌 譯
環境是python 2.7,不過這本書挺好的,未來版本會發布3.0的,值得關注。
《python網路數據採集》
py2.7的教程和3.x的沒什麼太大的區別 其實就是學習像requests等這種庫的使用 和一些網路技術 極客學院的教程就很好 雖然是2.7的 。小甲魚的Python教程是3.x的 雖然講的不錯 但是畢竟不全面 有漏洞或錯誤
推薦《精通Python網路爬蟲》這本書,基於Python 3.5的,體系比較全,案例比較多。
本人也是從Python3.5開始學習寫爬蟲的,之前學過HTML,CSS,使用CMS搭建過個人站點。在學習完了廖雪峰老師的教程後,從爬取新浪博客文章開始練習爬蟲,使用requests庫練習,邊搜索邊寫代碼,學會了很多,寫入文件,編碼,目錄操作,資料庫操作。
關鍵是找個自己想爬取的網站,簡單點的,不要那麼複雜。第一步走出去你會發現入門很簡單。
新手都是小爬蟲,不需要用scrapy
樓主,我有天善智能的課程,還有網易雲的四周完成爬蟲,需要的話聯繫,+我威信:WYZZXNDYL
最近正在搞,可以一起學習
推薦閱讀:
※python是否可對進行了blob加密的視頻進行爬取操作呢?
※爬蟲爬去簡書網站上面文章,get不到,求教原因?
※請問這個熱力圖是怎麼製作的呢?
※C# 都有哪些爬蟲框架?
※怎樣用Python設計一個爬蟲模擬登陸知乎?