Python小白想爬取網路數據?
01-22
本人是統計學的,有R軟體打底,並且有C語言的基礎,想知道如果僅僅想用python爬取網路數據應該從哪方面入手,或者在這方面有什麼參考書?
你有 R 語言基礎就先從 R 的 package 開始學唄,對整個爬取的流程有個大致了解了再學 Python 會容易一點,不然光是 Python 和 R 的語法差異就要踩好多坑了。
和 web 有關的 R package 都在CRAN Task View: Web Technologies and Services。
學會 httr,curl,rvest,XML就足以應付小型需求了。
高效、自動、並行的爬蟲還是需要 Python。
完全不需要書,利用搜索引擎學習。
簡單爬蟲不難,無非發起http訪問,取得網頁的源代碼文本,從源代碼文本中抽取信息。
首先要自己會寫代碼。
學習爬蟲可以從下面一些知識點入手學習。
1、http相關知識。2、瀏覽器攔截、抓包。3、python2 中編碼知識,python3 中bytes 和str類型轉換。4、抓取javascript 動態生成的內容。
5、模擬post、get,header等6、cookie處理,登錄。7、代理訪問。8、多線程訪問、python 3 asyncio 非同步。9、正則表達式、xpath等
等等。。。。還有scrapy requests等第三方庫的使用。請看看Python爬蟲聯想詞視頻和代碼
知乎專欄跟黃哥學Python爬蟲抓取代理IP和驗證。
知乎專欄
跟黃哥學Python爬蟲抓取代理IP
知乎專欄
Python的基礎語法在網上找個視頻或者博客看看就行,語法不是很難,就是語法糖有點多。http好好看看,那個《http權威指南》不錯。網頁的結構要學學,比如css選擇器,這個網上看看視頻就行了。正則表達式要學學,語法也不用背,用的時候查查就行。對性能有要求的話,學學多線程。《流暢的python》裡面有兩個章節講這方面講的不錯。學個主流的資料庫比如MySQL,不用學多深,會點SQL就行,你會R,估計這個不是問題。其他的就是Python裡面調用各種庫就行了!比如requests,scapy,selenium等。具體再有什麼問題可以私信我。
深入了解http協議,熟悉一點javascript和html
html的結構
http請求的方式
推薦閱讀:
※「男友讓我打十萬個「對不起」,漢字標上多少遍。」這個問題用 R 如何實現?
※你為什麼使用 jupyter ,進行分析,而不是用 python 腳本或僅僅利用 excel ?
※python有大量機器學習庫,但是不能結合hadoop,該如何實現大規模的機器學習?
※從零到搭建一個能提供API介面的網站,過程是怎樣的?
※定位後端開發,有哪些書籍值得推薦?