從零開始寫Python爬蟲 --- 導言

從零開始寫Python爬蟲

我是一名努力想做 coder 的小伙,目前自學Python有大半年了,期間也寫過一些小的爬蟲。說起來當時想成為程序員就是因為無意間了解到 爬蟲 這個神奇的東西。這裡會記錄自己 重新梳理 學習Python爬蟲的路線。也希望能成為一篇不錯的入門爬蟲教程,總之,希望自己能堅持把這個系列專欄寫完。

學習之前需要哪些準備?

  1. 一顆熱愛學習,不屈不撓的心
  2. 一台有鍵盤的電腦(什麼系統都行。我用的os x,所以例子會以這個為準)
  3. html相關的一些知識。不需要精通,能懂一點就行
  4. Python的基礎語法知識 。

如果我一點編程基礎都沒有怎麼辦?

現在開始學!Python是一門非常適合做入門學習的語言。

如果你沒有任何其他編程語言的基礎,那麼就來學Python吧。

Life is short, Use Python

有什麼推薦的入門教材么?

  • 如何零基礎自學入門Python
  • 笨辦法學Python
  • 廖大的Python3教程
  • 自強學堂的教程
  • 菜鳥學習資
  • html入門學習
  • 看看知乎大V們是如何回答這個問題的?

具體的學習路線是什麼?

總體分為三個大方面:

一: 簡單的定向腳本爬蟲(request —- bs4 —- re)

二: 大型框架式爬蟲(Scrapy框架為主)

三:瀏覽器模擬爬蟲 (Mechanize模擬 和 Selenium 模擬)

具體的步驟:

一:Beautiful Soup 爬蟲

  • requests庫的安裝與使用
  • 安裝beautiful soup 爬蟲環境
  • beautiful soup 的解析器
  • bs4 爬蟲實踐: 獲取百度貼吧的內容
  • bs4 爬蟲實踐: 獲取Dota遊戲結果
  • bs4 爬蟲實踐: 小說批量下載
  • bs4 爬蟲實踐: 獲取電影信息
  • bs4 爬蟲實踐: 獲取悅音台榜單

二: Scrapy 爬蟲框架

  • 安裝Scrapy
  • Scrapy中的選擇器 Xpath和CSS
  • Scrapy 爬蟲實踐:天氣預報&數據存儲
  • Scrapy 爬蟲實踐:代理獲取和驗證
  • Scrapy 爬蟲實踐:糗事百科
  • Scrapy 爬蟲實踐: 重構排行榜小說爬蟲&Mysql資料庫

三: 瀏覽器模擬爬蟲

  • Selenium模塊的安裝與使用
  • Selenium & PhantomJS 實踐: 獲取代理
  • Selenium & PhantomJS 實踐: 漫畫爬蟲

四: 練手項目:

  • 爬蟲實踐:螺紋鋼數據&Cookies
  • 爬蟲實踐:登錄正方教務系統
  • 爬蟲應用: requests+django實現微信公眾號後台
  • 爬蟲應用: 12306火車票信息查詢
  • 爬蟲應用: 利用鬥魚Api抓取彈幕
  • 爬蟲應用: 獲取支付寶賬單信息
  • 爬蟲應用:IT之家熱門段子(評論)爬取
  • 爬蟲應用:一號店 商品信息查詢程序
  • 從零開始寫Python爬蟲 --- 老司機開夜車 剎都剎不住
  • 公司里是怎麼做數據抓取的? --- 搜狗詞庫抓取&解析

五: 自己寫點小工具:

  • 爬蟲存儲海量數據太麻煩? 換個姿勢試一試!
  • 爬蟲會用到的小工具: LazySpider 發布啦!

每天的學習記錄都會同步更新到:

  • 微信公眾號: findyourownway
  • 知乎專欄:從零開始寫Python爬蟲 - 知乎專欄
  • blog : Ehco Blog

推薦閱讀:

Python爬蟲學習系列教程

TAG:爬虫 | Python教程 | Python入门 |