入門Python爬蟲需要掌握哪些技能和知識點？

07-12

Python爬蟲這門技術你可以做得很簡單，你也可以玩得很深入.打比方用簡單的爬蟲方式爬取1000萬條數據可能需要一周時間，但如果你的爬蟲玩得比較厲害，你可以採用分散式爬蟲技術1天就能完成了1000萬條數據。雖然都是爬蟲，但這就是菜鳥與大牛的區別!這就和太極拳似的，易學難精!

這裡面的技術點挺多的!現在來簡單聊聊爬蟲需要涉及的知識點。

網頁知識

html，js,css，xpath這些知識，雖然簡單，但一定需要了解。你得知道這些網頁是如何構成的，然後才能去分解他們.

HTTP知識

一般爬蟲你需要模擬瀏覽器的操作，才能去獲取網頁的信息

如果有些網站需要登錄，才能獲取更多的資料，你得去登錄，你得把登錄的賬號密碼進行提交

有些網站登錄後需要保存cookie信息才能繼續獲取更多資料

正則表達式

有了正則表達式才能更好的分割網頁信息，獲取我們想要的數據，所以正則表達式也是需要了解的.

一些重要的爬蟲庫

url,url2

beautiul Soup

資料庫

爬取到的數據我們得有個地方來保存，可以使用文件，也可以使用資料庫，這裡我會使用mysql，還有更適合爬蟲的MongoDB資料庫，以及分散式要用到的redis 資料庫

爬蟲框架

PySpider和Scrapy 這兩個爬蟲框架是非常NB的,簡單的爬蟲可以使用urllib與urllib2以及正則表達式就能完成，但高級的爬蟲還得用這兩個框架。這兩個框架需要另行安裝。後面一起學習.

反爬蟲

有時候你的網站數據想禁止別人爬取，可以做一些反爬蟲處理操作。打比方百度上就無法去查找淘寶上的數據，這樣就避開了搜索引擎的競爭，淘寶就可以搞自己的一套競價排名

分散式爬蟲

使用多個redis實例來緩存各台主機上爬取的數據。

如果覺得我的分享內容不錯，敬請「贊」！「評論」！「轉發」「關注」！