[學習Scrapy 1]如何新建一個Scrapy項目?

本文講解如何新建一個Scrapy項目,並且簡要介紹Scrapy項目的文件結構。

1.新建虛擬環境

安裝好virtualenv包。打開命令行進入要保存虛擬環境的文件夾下,比方:D:Python,進入路徑,輸入virtualenv Text_Spider創建虛擬環境。然後進入虛擬環境下的Scripts文件夾,輸入activate命令,此時如果出現以你命名的虛擬環境名為首的提示串則說明成功進入了虛擬環境,如果要退出虛擬環境,則輸入:deactivate。如下圖展示了進入虛擬環境後的交互界面。

2.新建Scrapy項目

保證虛擬環境中安裝好Scrapy包後我們開始新建Scrapy項目,在cmd中進入你想要保存scrapy項目的文件夾,我這裡選擇的是(自定義):(Text_Spider) D:PythonTest,需要注意的是,此時你仍然在虛擬環境下。然後繼續輸入以下命令:(Text_Spider) D:PythonTest>scrapy startproject Test,其中,前兩個字元串是不能改的,最後一個字元串是項目名(可以自定義),這串命令表示我在Test文件夾下新建了一個以個Test項目,這個項目是運行在虛擬環境(Text_Spider)中的。

上圖是新建項目後的交互界面。

接下來通過Pycharm打開項目文件,此時可以看到Scrapy項目的文件結構了。

新建好Scrapy項目還沒有完,此時項目中還沒有爬蟲文件,下面我以爬取伯樂在線網站為例展示如何新建爬蟲(Spider)文件。

回到命令行,進入到項目文件夾下(注意這裡必須是進入到項目文件夾中),然後輸入:scrapy genspider article_spider http://blog.jobbole.com/,其中前兩個字元串表示新建spider文件,第三個字元串是自定義的spider文件名,最後一個字元串是你想爬取的網站。回車之後,出現下面的提示信息說明成功。(請自動忽略尷尬的路徑名...)

此時再查看Pycharm,看到新建的文件出現在Scrapy文件目錄下,終於搞定了~

  • 不要把虛擬環境和項目文件混淆,虛擬環境和項目文件是獨立存放的。
  • scrapy startproject file_name命令創建一個Scrapy項目文件
  • scrapy scrapy genspider spider_name you_need_to_crawl_url命令的作用是在一個Scrapy項目中創建爬蟲文件

3.Scrapy項目的文件結構

上圖中就是一個完整的Scrapy項目的文件結構,紅線標識的就是爬蟲文件,這裡寫爬取網站的邏輯。items文件中定義數據保存的格式。middlewares文件使得Scrapy能夠更可控。settings文件包含了很多Scrapy的配置。pipline用於編寫一些和數據存儲相關的代碼。

這裡僅簡單介紹Scrapy項目的文件結構,後面的文章中還會具體介紹。

推薦閱讀:

(轉載)反擊爬蟲,前端工程師的腦洞可以有多大?
selenium phantomjs 翻頁
2017年Reddit熱議十大Python話題
Python爬蟲簡易代理池
為什麼要學 Python?

TAG:Python | python爬蟲 | scrapy |