[學習Scrapy 1]如何新建一個Scrapy項目?
本文講解如何新建一個
Scrapy
項目,並且簡要介紹Scrapy
項目的文件結構。
1.新建虛擬環境
安裝好virtualenv
包。打開命令行進入要保存虛擬環境的文件夾下,比方:D:Python
,進入路徑,輸入virtualenv Text_Spider創建虛擬環境
。然後進入虛擬環境下的Scripts
文件夾,輸入activate
命令,此時如果出現以你命名的虛擬環境名為首的提示串則說明成功進入了虛擬環境,如果要退出虛擬環境,則輸入:deactivate。
如下圖展示了進入虛擬環境後的交互界面。
2.新建Scrapy項目
保證虛擬環境中安裝好Scrapy
包後我們開始新建Scrapy
項目,在cmd
中進入你想要保存scrapy
項目的文件夾,我這裡選擇的是(自定義):(Text_Spider) D:PythonTest,
需要注意的是,此時你仍然在虛擬環境下。然後繼續輸入以下命令:(Text_Spider) D:PythonTest>scrapy startproject Test
,其中,前兩個字元串是不能改的,最後一個字元串是項目名(可以自定義),這串命令表示我在Test文件夾下新建了一個以個Test項目,這個項目是運行在虛擬環境(Text_Spider)
中的。
上圖是新建項目後的交互界面。
接下來通過Pycharm
打開項目文件,此時可以看到Scrapy
項目的文件結構了。
新建好Scrapy
項目還沒有完,此時項目中還沒有爬蟲文件,下面我以爬取伯樂在線網站為例展示如何新建爬蟲(Spider)文件。
回到命令行,進入到項目文件夾下(注意這裡必須是進入到項目文件夾中),然後輸入:scrapy genspider article_spider http://blog.jobbole.com/
,其中前兩個字元串表示新建spider
文件,第三個字元串是自定義的spider
文件名,最後一個字元串是你想爬取的網站。回車之後,出現下面的提示信息說明成功。(請自動忽略尷尬的路徑名...)
此時再查看Pycharm
,看到新建的文件出現在Scrapy
文件目錄下,終於搞定了~
- 不要把虛擬環境和項目文件混淆,虛擬環境和項目文件是獨立存放的。
scrapy startproject file_name
命令創建一個Scrapy
項目文件scrapy scrapy genspider spider_name you_need_to_crawl_url
命令的作用是在一個Scrapy
項目中創建爬蟲文件
3.Scrapy項目的文件結構
上圖中就是一個完整的Scrapy
項目的文件結構,紅線標識的就是爬蟲文件,這裡寫爬取網站的邏輯。items
文件中定義數據保存的格式。middlewares
文件使得Scrapy
能夠更可控。settings
文件包含了很多Scrapy
的配置。pipline
用於編寫一些和數據存儲相關的代碼。
這裡僅簡單介紹Scrapy
項目的文件結構,後面的文章中還會具體介紹。
推薦閱讀:
※(轉載)反擊爬蟲,前端工程師的腦洞可以有多大?
※selenium phantomjs 翻頁
※2017年Reddit熱議十大Python話題
※Python爬蟲簡易代理池
※為什麼要學 Python?