有什麼好的python3爬蟲入門教程或書籍嗎?

我想學用python3.4寫爬蟲,但是好多教程都是2.7的,即使是3.x的也是特別不詳細。求推薦幾個好的教程,不勝感激。


引用某位大神的話,學習Python沒有比文檔更好的教程了。
如果是爬蟲路線的話:

1.先熟悉語言,看python官方文檔http://docs.pythontab.com/python/python3.4/introduction.html

2.爬蟲庫文檔,包括requests和beautifulsoup
http://cn.python-requests.org/zh_CN/latest/ https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

會了上面的三個基本就算入門了吧,後面用什麼庫就有很多選擇了。

比如:

scrapy:Scrapy 1.0 文檔(未完成,只更新了intro部分,請謹慎參考)

selenium:python3初識selenium - lvmememe - 博客園

上面推薦的都是中文文檔,個人覺得學習成本小一些,如果執意要看英文文檔當然也是可以的|?д??)


Python3爬蟲視頻學習教程 | 靜覓

大綱是這個樣子的:

一、環境篇

  • Python3+Pip環境配置
  • MongoDB環境配置
  • Redis環境配置
  • MySQL環境配置
  • Python多版本共存配置
  • Python爬蟲常用庫的安裝

二、基礎篇

  • 爬蟲基本原理
  • Urllib庫基本使用
  • Requests庫基本使用
  • 正則表達式基礎
  • BeautifulSoup詳解
  • PyQuery詳解
  • Selenium詳解

三、實戰篇

  • 使用Requests+正則表達式爬取貓眼電影
  • 分析Ajax請求並抓取今日頭條街拍美圖
  • 使用Selenium模擬瀏覽器抓取淘寶商品美食信息
  • 使用Redis+Flask維護一個動態代理池
  • 使用代理處理反爬抓取微信文章

四、框架篇

  • PySpider框架基本使用及抓取TripAdvisor實戰
  • PySpider架構概述及用法詳解
  • Scrapy框架的安裝
  • Scrapy框架基本使用
  • Scrapy命令行詳解
  • Scrapy中選擇器的用法
  • Scrapy中Spiders的用法
  • Scrapy中Item Pipeline的用法
  • Scrapy中Download Middleware的用法
  • Scrapy爬取知乎用戶信息實戰

五、分散式篇

  • Scrapy分散式原理及Scrapy-Redis源碼解析
  • Scrapy分散式架構搭建抓取知乎
  • Scrapy分散式的部署詳解

大家好哈,現在呢靜覓博客已經兩年多啦,可能大家過來更多看到的是爬蟲方面的博文,首先非常感謝大家的支持,希望我的博文對大家有幫助!

之前我寫了一些Python爬蟲方面的文章,Python爬蟲學習系列教程,涉及到了基礎和進階的一些內容,當時更多用到的是Urllib還有正則,後來又陸續增加了一些文章,在學習過程中慢慢積累慢慢成型了一套算不上教程的教程,後來有越來越多的小夥伴學習和支持我感到非常開心,再次感謝大家!

不過其實這些教程總的來說有一些問題:

  1. 當時用的Python2寫的,剛寫的時候Scrapy這個框架也沒有支持Python3,一些Python3爬蟲庫也不怎麼成熟,所以當時選擇了Python2。但到現在,Python3發展迅速,爬蟲庫也越來越成熟,而且Python2在不久的將來就會停止維護了,所以慢慢地,我的語言重心也慢慢轉向了Python3,我也相信Python3會成為主流。所以說之前的一套課程算是有點過時了,相信大家肯定還在尋找Python3的一些教程。
  2. 當時學習的時候主要用的urllib,正則,所以這些文章的較大篇幅也都是urllib和正則的一些東西,後來的一些高級庫都是在後面慢慢加的,而且一些高級的框架用法也沒有做深入講解,所以感覺整個內容有點頭重腳輕,安排不合理。而且現在分散式越來越火,那麼分散式爬蟲的應用相必也是越來越廣泛,之前的課程也沒有做系統講解。
  3. 在介紹一些操作的時候可能介紹不全面,環境的配置也沒有兼顧各個平台,所以可能有些小夥伴摸不著頭腦,可能卡在某一步不知道接下來是怎麼做的了。

那麼綜合上面的問題呢,最近我花了前前後後將近一個月的時間錄製了一套新的Pyhthon3爬蟲視頻教程,將我之前做爬蟲的一些經驗重新梳理和整合,利用Python3編寫,從環境配置、基礎庫講解到案例實戰、框架使用,最後再到分散式爬蟲進行了比較系統的講解。

上面就是課程大綱。

整個課程是從小白起點的,從環境配置和基礎開始講起,環境安裝部分三大平台都有介紹,實戰的部分我是一邊寫一邊講解,還有一些分散式爬蟲的搭建流程也做了介紹。

不過這個課程是收費的,其實裡面也包含了我學習爬蟲以來的經驗和汗水,我在做講解的時候也會把我學習爬蟲的一些思路和想法講解出來,避免大家走一些彎路,希望大家可以支持一下!

不過在這裡有免費的視頻,是屬於整個課程的一部分,大家可以直接觀看

Python3爬蟲三大案例實戰分享

整套視頻課程放在天善智能這邊了,大家如果感興趣的話可以直接在這裡購買,499元。

如果您想要購買的話,友情提示您:

請在電腦PC端購買!請在電腦PC端購買!請在電腦PC端購買!

課程鏈接如下:

自己動手,豐衣足食!Python3網路爬蟲實戰案例

最後的最後希望大家可以多多支持!非常感謝!知識就是力量!也希望我的課程能為您創造更大的財富!


就樓上說的。我用的requests和urllib,去官網看看文檔,裡面有一些例子。不懂的可以stackoverflow


我正在學,也在寫,把學的內容組織起來寫進博客了。追我博客吧。掙脫不足與蒙昧


最近在整理爬蟲博客,歡迎訪問,爬蟲從入門到放棄系列,,,持續更新中http://pythonsite.com


當然是嵩天教授的書了,書寫的很不錯,通俗易懂,更關鍵在中國大學mooc上有對的授課視頻,相當不錯,建議題主看一下,不是打廣告。


學爬蟲,我只推薦一本:

《用Python寫網路爬蟲》

Richard Lawson 著/李斌 譯

環境是python 2.7,不過這本書挺好的,未來版本會發布3.0的,值得關注。


《python網路數據採集》


py2.7的教程和3.x的沒什麼太大的區別 其實就是學習像requests等這種庫的使用 和一些網路技術 極客學院的教程就很好 雖然是2.7的 。小甲魚的Python教程是3.x的 雖然講的不錯 但是畢竟不全面 有漏洞或錯誤


推薦《精通Python網路爬蟲》這本書,基於Python 3.5的,體系比較全,案例比較多。


本人也是從Python3.5開始學習寫爬蟲的,之前學過HTML,CSS,使用CMS搭建過個人站點。在學習完了廖雪峰老師的教程後,從爬取新浪博客文章開始練習爬蟲,使用requests庫練習,邊搜索邊寫代碼,學會了很多,寫入文件,編碼,目錄操作,資料庫操作。
關鍵是找個自己想爬取的網站,簡單點的,不要那麼複雜。第一步走出去你會發現入門很簡單。
新手都是小爬蟲,不需要用scrapy


樓主,我有天善智能的課程,還有網易雲的四周完成爬蟲,需要的話聯繫,+我威信:WYZZXNDYL


最近正在搞,可以一起學習


推薦閱讀:

python是否可對進行了blob加密的視頻進行爬取操作呢?
爬蟲爬去簡書網站上面文章,get不到,求教原因?
請問這個熱力圖是怎麼製作的呢?
C# 都有哪些爬蟲框架?
怎樣用Python設計一個爬蟲模擬登陸知乎?

TAG:Python | 爬蟲計算機網路 | 網頁爬蟲 |