我的Live -- 爬蟲從入門到進階

點擊這裡上車 →_→ 知乎 Live 入口

據我觀察,知乎上最受關注的語言是Python,Python語言的領域中內容最多的是爬蟲,其次是Web開發。「存在即合理」,既然常見的編程語言都是圖靈完備的,為什麼Python彷彿是爬蟲的代名詞呢?我總結了3點:

1. Python語法簡潔,完成一個爬蟲需要的代碼量極少,開發效率很高。n2. 有非常多的Python庫用來完成抓取、HTML解析等相關工作,開發者只需要關注要抓取的內容和如何存儲即可。n3. 有非常多成功的爬蟲案例,網上可以找到非常多的抓取技術分享文章。這就成了一個良性循環,抓取技術分享文章和相關項目越多,就越多人來用,越多人來用就會有越來越多的技術分享。n

編寫爬蟲程序是一個非常有用的技能點,尤其對 Python 工程師而言甚至是必備技能。我們可以將數據採集到以後,通過數據清洗,結構化等步驟最後讓數據用來做商業分析;也可以拿到信息並用於日常生活,比如買房前抓取對應地區歷史成交記錄再決策;還可以實現一個聚合應用,甚至未來能商業化運作……所以有一個職業叫做「爬蟲工程師」。

在學習編程開發中,寫爬蟲是一個非常好的切入點,在實現爬蟲的過程中既可以提高對應編程語言的熟悉程度,也可以把自己感興趣的內容收集起來,以便得到進一步的利用。寫爬蟲是一個非常容易有成效和成就感的工作,你能快速的感受到編程的樂趣,但是也不要竊喜自己寫好的簡單爬蟲,其實當抓取量級大、功能複雜的爬蟲還是有很多挑戰的。 n

爬蟲的另外一個知名應用是下載器,我曾經在 你見過哪些令你瞠目結舌的爬蟲技巧? 裡面介紹過 you-get ,另外一個是 youtube-dl,其實它們也是爬蟲。

本 Live 我將基於我的經驗和理解,從零開始教大家爬蟲入門和進階的各種技能和遇到的常見問題的解決方案。也希望對已經寫過爬蟲的同學有所助益。

本次 Live 主要包括以下內容:

? 從零學習爬蟲的正確路徑 n? 勝任爬蟲工程師還得具備哪些能力,爬蟲整體知識體系梳理 n? 怎麼抓取到你想要的內容 n? 什麼情況下用 scrapy 之類的抓取框架? n? 如何爬取動態頁面 n? 實戰設計一個抓取網站基本信息的可擴展的爬蟲應用架構 n? 爬蟲性能優化 n? 如何應對網站反爬蟲策略n

Live入口: 點擊報名《董偉明 的 Live -- 爬蟲從入門到進階》

推薦閱讀:

python數據科學-多變數數據分析
怎麼寫一個拿得出手的項目?
Python黑帽編程 3.1 ARP欺騙
python anaconda 怎麼安裝?

TAG:Python | 爬虫 | 爬虫计算机网络 |