標籤：

Python入門 Python教程爬蟲

從零開始寫Python爬蟲 --- 導言

01-24

從零開始寫Python爬蟲

我是一名努力想做 coder 的小伙，目前自學Python有大半年了，期間也寫過一些小的爬蟲。說起來當時想成為程序員就是因為無意間了解到爬蟲這個神奇的東西。這裡會記錄自己重新梳理學習Python爬蟲的路線。也希望能成為一篇不錯的入門爬蟲教程，總之，希望自己能堅持把這個系列專欄寫完。

學習之前需要哪些準備？

一顆熱愛學習，不屈不撓的心
一台有鍵盤的電腦（什麼系統都行。我用的os x，所以例子會以這個為準）
html相關的一些知識。不需要精通，能懂一點就行
Python的基礎語法知識。

如果我一點編程基礎都沒有怎麼辦？

現在開始學！Python是一門非常適合做入門學習的語言。

如果你沒有任何其他編程語言的基礎，那麼就來學Python吧。

Life is short， Use Python

有什麼推薦的入門教材么？

如何零基礎自學入門Python
笨辦法學Python
廖大的Python3教程
自強學堂的教程
菜鳥學習資
html入門學習
看看知乎大V們是如何回答這個問題的？

具體的學習路線是什麼？

總體分為三個大方面：

一：簡單的定向腳本爬蟲（request —- bs4 —- re）

二：大型框架式爬蟲（Scrapy框架為主）

三：瀏覽器模擬爬蟲（Mechanize模擬和 Selenium 模擬）

具體的步驟：

一：Beautiful Soup 爬蟲

requests庫的安裝與使用
安裝beautiful soup 爬蟲環境
beautiful soup 的解析器
bs4 爬蟲實踐：獲取百度貼吧的內容
bs4 爬蟲實踐：獲取Dota遊戲結果
bs4 爬蟲實踐：小說批量下載
bs4 爬蟲實踐：獲取電影信息
bs4 爬蟲實踐：獲取悅音台榜單

二： Scrapy 爬蟲框架

安裝Scrapy
Scrapy中的選擇器 Xpath和CSS
Scrapy 爬蟲實踐：天氣預報&數據存儲
Scrapy 爬蟲實踐：代理獲取和驗證
Scrapy 爬蟲實踐：糗事百科
Scrapy 爬蟲實踐：重構排行榜小說爬蟲&Mysql資料庫

三：瀏覽器模擬爬蟲

Selenium模塊的安裝與使用
Selenium & PhantomJS 實踐：獲取代理
Selenium & PhantomJS 實踐：漫畫爬蟲

四：練手項目：

爬蟲實踐：螺紋鋼數據&Cookies
爬蟲實踐：登錄正方教務系統
爬蟲應用： requests+django實現微信公眾號後台
爬蟲應用： 12306火車票信息查詢
爬蟲應用：利用鬥魚Api抓取彈幕
爬蟲應用：獲取支付寶賬單信息
爬蟲應用：IT之家熱門段子（評論）爬取
爬蟲應用：一號店商品信息查詢程序
從零開始寫Python爬蟲 --- 老司機開夜車剎都剎不住
公司里是怎麼做數據抓取的？ --- 搜狗詞庫抓取&解析

五：自己寫點小工具：

爬蟲存儲海量數據太麻煩? 換個姿勢試一試！
爬蟲會用到的小工具： LazySpider 發布啦！

每天的學習記錄都會同步更新到：

微信公眾號： findyourownway
知乎專欄：從零開始寫Python爬蟲 - 知乎專欄
blog ： Ehco Blog

推薦閱讀：

※Python爬蟲學習系列教程

TAG:爬虫 | Python教程 | Python入门 |