做python爬蟲需要會web後端嗎,不會的話能做嗎?
我學python已經有段時間了,現在想做爬蟲,
不知道都需要具備哪些知識點。到底是不是要學會web後端才能做爬蟲呢
不會後端也能做一些簡單爬蟲。不過遇到反爬的網站可能就需要了解一下後端。
比如 這個爬蟲闖關 看你能過幾關。:)
謝邀。我一直覺得,做爬蟲是要懂一些web後端的相關知識的。
看題主的問題,好像題主對於爬蟲這個領域,還知之甚少。我談談我認為的重點和大致方向吧。單從一個簡單的爬蟲來看,無非就是發請求、解析頁面和存儲數據。發請求的話,你需要了解http協議,自己會抓包那是更好了,常用的工具如requests網路庫,scrapy框架等,推薦新手使用前者。解析頁面也只是一些API的使用,常用的有正則表達式(難)、beautifulsoup和xpath等,一般的網站都不會很複雜。存儲數據這個題主應該沒問題,我就不啰嗦了。
剛說的你掌握了,大概就入門爬蟲了,門檻確實很低。但是呢,做爬蟲最核心的點可能在於反反爬蟲和大規模爬蟲集群的資源和任務調度。前者要求你會抓包、會讀js,要是懂一些web後端的知識肯定會更好,你懂web後端的知識可能會幫助你理解反反爬蟲的東西,但是web後端學習的優先順序應該比你入門爬蟲的優先順序更低。至於第二點,我就不說了,因為不在這個問題的討論範圍內。
題主如果看完了我的答案,那麼快動手寫一個小爬蟲吧,就不要糾結學不學web了。等你寫爬蟲遇到了一定的瓶頸,去了解web編程吧。
看做什麼樣的爬蟲了,淺的話學點 python 基礎,掌握點 web 前端知識就夠了,複雜的爬蟲需要掌握的東西就要多些!
我就是爬蟲,入門的話,不需要,你需要掌握的知識為:
一門編程語言如:python,
能看懂前端頁面標籤,
掌握一門頁面提取方法如Xpath,正則等,
了解網路傳輸協議,
了解常見的反爬,會加瀏覽器頭和代理,
最好會一種爬蟲框架:推薦scrapy,
資料庫基本操作等即可!
謝邀!並不需要誒。
不過如果為了少踩一些坑,網路知識得懂一點、HTTP協議得懂一點、HTML得懂一點。
以後數據需要存儲,資料庫也懂一點。
嗯,如果無從下手的話,歡迎看看我寫的爬蟲實戰教程吧,希望能給你幫助。
Python爬蟲實戰入門一:工具準備
Python爬蟲實戰入門二:從一個簡單的HTTP請求開始
Python爬蟲實戰入門三:簡單的HTML解析——爬取騰訊新聞
Python爬蟲實戰入門四:使用Cookie模擬登錄——獲取電子書下載鏈接
Python爬蟲實戰入門五:獲取JS動態內容—爬取今日頭條
Python爬蟲實戰入門六:提高爬蟲效率—並發爬取智聯招聘
Python爬蟲入門實戰七:使用Selenium--以抓取QQ空間好友說說為例
Python爬蟲入門實戰八:數據儲存——MongoDB與MySQL
其實就是個逆向工程,爬蟲入門的話會發現做個入門的網站也很簡單的
瀉藥,基本需要。
你要是只是簡單的爬一些數據,比如1000條一下,那沒必要,徒增複雜度,導出一個csv,用excel看看就行了。
如果你需要爬的數據上萬了,那沒有一個方便的後台怎麼查詢數據啊,比如你怎麼知道今天是不是被封禁了,不從後台看從哪裡看?
推薦django,自帶管理後台,誰用誰知道~
如果是初級簡單爬蟲,不需要,如果是上了規模的爬蟲。。。好吧這個命題不成立,因為不了解相關架構知識做不了規模爬蟲的活
嚴格來講不需要
but,你不會web開發如何在反爬的鬥爭中做到知己知彼,百戰不殆?推薦閱讀:
※求大神們推薦python入門書籍(爬蟲方面)?
※python動態的網頁數據json里沒有中文字元怎麼辦?
※有沒有python爬蟲視頻教程推薦啊?
※通俗的講,網路爬蟲到底是什麼?