標籤:

為什麼覺得Scrapy很難?

連本書都沒有嗎?


這有個課程可以幫你~


網易雲課堂免費課程--Python零基礎:Scrapy實戰--免費 - 網易雲課堂


簡單Scrapy shell的使用,以及寫一個爬蟲獲取數據併入庫


不要直接用 Scrapy,
先學習從基本的庫手動寫一個爬蟲,明白爬蟲的整體流程是怎樣的,
之後去看 Scrapy,才會明白這個框架究竟方便了什麼。

Python 所有文章 - 伯樂
其中的 Python 爬蟲入門教程都還不錯。

Scrapy 教程『英文版』、Scrapy 教程『中文版』
技術發展的速度遠遠快於紙質書的出版速度,這是常態。


覺得難主要是沒有高質量的中文文檔吧。沒有書,也不難。大多數中文教程都是翻譯官方的tutorial,其實本可以用一個更高大上也同樣實現很簡潔的例子講解的。

想學的話可以自己去github上下載一些常式看一下,geekan的常式還可以。


贊成Dan Xin。
scrapy這個項目,就是把官方文檔都看完了,也未必知道所以然。
舉個栗子,爬蟲最為主要的數據結構「待爬隊列」以及調度方式(request_queue和scheduler),在官方文檔中就沒有詳細的介紹,只是說你可以在setting中設置優先方式(Frequently Asked Questions)。
但是想要完全的控制爬取策略,肯定要在待爬隊列上進行操作。那要怎麼辦呢,目前來看,只好研讀研讀scrapy的源代碼,然後修改修改。比如這個項目:distribute_crawler/settings.py at master · gnemoug/distribute_crawler · GitHub就更換掉了系統自帶的調度器。
(當然代碼讀起來也不麻煩,要是熟悉twisted,核心部分看起來也沒有多少東西。但是不熟悉還傻傻的一行一行的讀的話,比如我就被徹底噁心到了,但是還在傻傻的看。)


想要用Python做爬蟲,使用scrapy框架是很好的選擇。

crapy是一套用Python編寫的非同步爬蟲框架,基於Twisted實現,運行於Linux/Windows/MacOS等多種環境,具有速度快、擴展性強、使用簡便等特點。即便是新手也能迅速掌握並編寫出所需要的爬蟲程序。scrapy可以在本地運行,也能部署到雲端(scrapyd)實現真正的生產級數據採集系統。

我拉來了我們豈安科技喜歡(瞎)折騰的研發工程師Hekko寫了一篇人人都會數據採集-Scrapy爬蟲框架入門,說一下利用輕量級爬蟲框架scrapy來進行數據採集的基本方法,通過一個實例來學習如何利用scrapy從網路上採集數據。上手難度比較低,基本保證人人都會。


哎,爬蟲這個東西就是開頭難,入門易,進階更難。

說說我的經驗吧。
起先的話就從最簡單的douban呀之類的不用非同步載入的簡單網站入入手,知道怎麼下載圖片,用正則表達式,beautifulsoup之類的東西。

後面就慢慢可以試一試帶json技術的非同步載入網站,分析跳轉之類的技術。

後面就是利用圖像識別包識別驗證碼哇,cookie持久化哇之類的技術進行驗證性登錄,IP池代理之類的。還有無頭瀏覽器或內核的幫助模仿瀏覽器進行抓取。

到這裡,恭喜你入門了。

接下來就難了,因為除了Python,你還要系統的學習前端,了解她的構成方式,和後端的交互機制,還要了解各種防怕和分散式爬蟲的構建措施。這一步開始才是真正難的。

至於scrapy只是個比較好的工具,他能幫你解決任務隊列,去重,選擇器等比較麻煩的東西,讓你能更好的專註於爬取數據,而不是費心的設計各種銜接構建。前面看看官方文檔,用的時候搜搜案例就夠了,也沒多複雜

你覺得複雜比較難,只能說你剛開始不久或者做的東西太少。這關過不去,後面更難的你怎麼辦?


官方的在線文檔+瀏覽器頁面翻譯插件


scrapy入門是相對比較難得,都是些英文教程,我推薦這篇入門文章你可以參考一下http://www.bestblog.top/2017/08/24/Scrapy%E7%AC%AC%E4%B8%80%E6%88%98%E2%80%94%E7%88%AC%E5%8F%96%E6%99%BA%E8%81%94%E6%8B%9B%E8%81%98/


真的難嗎?難的話可能是你自己都不怎麼想查資料,也不肯寫代碼驗證,我自己拿著源代碼,一個功能一個功能的實現,一個網站一個網站的去實踐,我覺得我入門了,不過離精通還很早。還是多花點時間寫代碼,多思考,多去讀官方的文檔,爬蟲也就那麼回事


難個屁,看官網doc就行了[白眼.jpg]


跟你說,還不如自己寫。這種爬蟲,需求千差萬別,要滿足這些需求,自然很多判斷,各種所謂的設計模式。了解了也多大用。不如自己寫來的直接
實際上自己實現的話,也不複雜。而且項目變動也好改,出了問題也好修復~運行速度也快。
當然它的設計可以參考下,不建議用


推薦閱讀:

Python安裝Scrapy出現以下錯誤怎麼辦?
為何抵觸爬蟲?
如何高效學習python的某一個包?
請問scrapy源碼的入口是哪個?

TAG:Python | scrapy |