Python小白想爬取網路數據？

01-22

本人是統計學的，有R軟體打底，並且有C語言的基礎，想知道如果僅僅想用python爬取網路數據應該從哪方面入手，或者在這方面有什麼參考書？

你有 R 語言基礎就先從 R 的 package 開始學唄，對整個爬取的流程有個大致了解了再學 Python 會容易一點，不然光是 Python 和 R 的語法差異就要踩好多坑了。

和 web 有關的 R package 都在CRAN Task View: Web Technologies and Services。

學會 httr，curl，rvest，XML就足以應付小型需求了。

高效、自動、並行的爬蟲還是需要 Python。

完全不需要書，利用搜索引擎學習。

簡單爬蟲不難，無非發起http訪問，取得網頁的源代碼文本，從源代碼文本中抽取信息。

首先要自己會寫代碼。

學習爬蟲可以從下面一些知識點入手學習。

1、http相關知識。

2、瀏覽器攔截、抓包。

3、python2 中編碼知識，python3 中bytes 和str類型轉換。

4、抓取javascript 動態生成的內容。

5、模擬post、get，header等

6、cookie處理，登錄。

7、代理訪問。

8、多線程訪問、python 3 asyncio 非同步。

9、正則表達式、xpath等

等等。。。。

還有scrapy requests等第三方庫的使用。

請看看

Python爬蟲聯想詞視頻和代碼

知乎專欄

跟黃哥學Python爬蟲抓取代理IP和驗證。

知乎專欄

跟黃哥學Python爬蟲抓取代理IP

知乎專欄

Python的基礎語法在網上找個視頻或者博客看看就行，語法不是很難，就是語法糖有點多。

http好好看看，那個《http權威指南》不錯。

網頁的結構要學學，比如css選擇器，這個網上看看視頻就行了。

正則表達式要學學，語法也不用背，用的時候查查就行。

對性能有要求的話，學學多線程。《流暢的python》裡面有兩個章節講這方面講的不錯。

學個主流的資料庫比如MySQL，不用學多深，會點SQL就行，你會R，估計這個不是問題。

其他的就是Python裡面調用各種庫就行了！比如requests，scapy，selenium等。

具體再有什麼問題可以私信我。

深入了解http協議，熟悉一點javascript和html

html的結構

http請求的方式