有什麼好的python3爬蟲入門教程或書籍嗎？

12-28

我想學用python3.4寫爬蟲，但是好多教程都是2.7的，即使是3.x的也是特別不詳細。求推薦幾個好的教程，不勝感激。

引用某位大神的話，學習Python沒有比文檔更好的教程了。
如果是爬蟲路線的話：

1.先熟悉語言，看python官方文檔http://docs.pythontab.com/python/python3.4/introduction.html

2.爬蟲庫文檔，包括requests和beautifulsoup
http://cn.python-requests.org/zh_CN/latest/ https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

會了上面的三個基本就算入門了吧，後面用什麼庫就有很多選擇了。

比如:

scrapy:Scrapy 1.0 文檔(未完成,只更新了intro部分,請謹慎參考)

selenium:python3初識selenium - lvmememe - 博客園

上面推薦的都是中文文檔，個人覺得學習成本小一些，如果執意要看英文文檔當然也是可以的|?д??)

Python3爬蟲視頻學習教程 | 靜覓

大綱是這個樣子的：

一、環境篇

Python3+Pip環境配置
MongoDB環境配置
Redis環境配置
MySQL環境配置
Python多版本共存配置
Python爬蟲常用庫的安裝

二、基礎篇

爬蟲基本原理
Urllib庫基本使用
Requests庫基本使用
正則表達式基礎
BeautifulSoup詳解
PyQuery詳解
Selenium詳解

三、實戰篇

使用Requests+正則表達式爬取貓眼電影
分析Ajax請求並抓取今日頭條街拍美圖
使用Selenium模擬瀏覽器抓取淘寶商品美食信息
使用Redis+Flask維護一個動態代理池
使用代理處理反爬抓取微信文章

四、框架篇

PySpider框架基本使用及抓取TripAdvisor實戰
PySpider架構概述及用法詳解
Scrapy框架的安裝
Scrapy框架基本使用
Scrapy命令行詳解
Scrapy中選擇器的用法
Scrapy中Spiders的用法
Scrapy中Item Pipeline的用法
Scrapy中Download Middleware的用法
Scrapy爬取知乎用戶信息實戰

五、分散式篇

Scrapy分散式原理及Scrapy-Redis源碼解析
Scrapy分散式架構搭建抓取知乎
Scrapy分散式的部署詳解

大家好哈，現在呢靜覓博客已經兩年多啦，可能大家過來更多看到的是爬蟲方面的博文，首先非常感謝大家的支持，希望我的博文對大家有幫助！

之前我寫了一些Python爬蟲方面的文章，Python爬蟲學習系列教程，涉及到了基礎和進階的一些內容，當時更多用到的是Urllib還有正則，後來又陸續增加了一些文章，在學習過程中慢慢積累慢慢成型了一套算不上教程的教程，後來有越來越多的小夥伴學習和支持我感到非常開心，再次感謝大家！

不過其實這些教程總的來說有一些問題：

當時用的Python2寫的，剛寫的時候Scrapy這個框架也沒有支持Python3，一些Python3爬蟲庫也不怎麼成熟，所以當時選擇了Python2。但到現在，Python3發展迅速，爬蟲庫也越來越成熟，而且Python2在不久的將來就會停止維護了，所以慢慢地，我的語言重心也慢慢轉向了Python3，我也相信Python3會成為主流。所以說之前的一套課程算是有點過時了，相信大家肯定還在尋找Python3的一些教程。
當時學習的時候主要用的urllib，正則，所以這些文章的較大篇幅也都是urllib和正則的一些東西，後來的一些高級庫都是在後面慢慢加的，而且一些高級的框架用法也沒有做深入講解，所以感覺整個內容有點頭重腳輕，安排不合理。而且現在分散式越來越火，那麼分散式爬蟲的應用相必也是越來越廣泛，之前的課程也沒有做系統講解。
在介紹一些操作的時候可能介紹不全面，環境的配置也沒有兼顧各個平台，所以可能有些小夥伴摸不著頭腦，可能卡在某一步不知道接下來是怎麼做的了。

那麼綜合上面的問題呢，最近我花了前前後後將近一個月的時間錄製了一套新的Pyhthon3爬蟲視頻教程，將我之前做爬蟲的一些經驗重新梳理和整合，利用Python3編寫，從環境配置、基礎庫講解到案例實戰、框架使用，最後再到分散式爬蟲進行了比較系統的講解。

上面就是課程大綱。

整個課程是從小白起點的，從環境配置和基礎開始講起，環境安裝部分三大平台都有介紹，實戰的部分我是一邊寫一邊講解，還有一些分散式爬蟲的搭建流程也做了介紹。

不過這個課程是收費的，其實裡面也包含了我學習爬蟲以來的經驗和汗水，我在做講解的時候也會把我學習爬蟲的一些思路和想法講解出來，避免大家走一些彎路，希望大家可以支持一下！

不過在這裡有免費的視頻，是屬於整個課程的一部分，大家可以直接觀看

Python3爬蟲三大案例實戰分享

整套視頻課程放在天善智能這邊了，大家如果感興趣的話可以直接在這裡購買，499元。

如果您想要購買的話，友情提示您：

請在電腦PC端購買！請在電腦PC端購買！請在電腦PC端購買！

課程鏈接如下：

自己動手，豐衣足食！Python3網路爬蟲實戰案例

最後的最後希望大家可以多多支持！非常感謝！知識就是力量！也希望我的課程能為您創造更大的財富！

就樓上說的。我用的requests和urllib，去官網看看文檔，裡面有一些例子。不懂的可以stackoverflow

我正在學，也在寫，把學的內容組織起來寫進博客了。追我博客吧。掙脫不足與蒙昧

最近在整理爬蟲博客，歡迎訪問，爬蟲從入門到放棄系列，，，持續更新中http://pythonsite.com

當然是嵩天教授的書了，書寫的很不錯，通俗易懂，更關鍵在中國大學mooc上有對的授課視頻，相當不錯，建議題主看一下，不是打廣告。

學爬蟲，我只推薦一本：

《用Python寫網路爬蟲》

Richard Lawson 著/李斌譯

環境是python 2.7，不過這本書挺好的，未來版本會發布3.0的，值得關注。

《python網路數據採集》

py2.7的教程和3.x的沒什麼太大的區別其實就是學習像requests等這種庫的使用和一些網路技術極客學院的教程就很好雖然是2.7的。小甲魚的Python教程是3.x的雖然講的不錯但是畢竟不全面有漏洞或錯誤

推薦《精通Python網路爬蟲》這本書，基於Python 3.5的，體系比較全，案例比較多。

本人也是從Python3.5開始學習寫爬蟲的，之前學過HTML,CSS，使用CMS搭建過個人站點。在學習完了廖雪峰老師的教程後，從爬取新浪博客文章開始練習爬蟲，使用requests庫練習，邊搜索邊寫代碼，學會了很多，寫入文件，編碼，目錄操作，資料庫操作。
關鍵是找個自己想爬取的網站，簡單點的，不要那麼複雜。第一步走出去你會發現入門很簡單。
新手都是小爬蟲，不需要用scrapy

樓主，我有天善智能的課程，還有網易雲的四周完成爬蟲，需要的話聯繫，+我威信：WYZZXNDYL

最近正在搞，可以一起學習