標籤:

經歷絕望之後,來爬取知乎爬了幾張美圖

講道理的話,最近學習爬蟲一直懵逼,惆悵的一匹。經歷絕望之後,就找到知乎上的小姐姐來爬取圖片。

學習的小夥伴注意低調點,不要一下爬取很多,不然被反爬封IP就僵硬了。

我這次爬蟲用的是R語言。

首先確定目標網址: 擼串的假女神:你的日常搭配是什麼樣子?

載入組件

library("XML")

library("RCurl")

library("downloader")

獲取網址並解析

分析這個頁面,發現圖片都在<img>標籤內, 所以直接抓取img下的data-original的屬性值

清理數據,把重複的去掉

name <- link[1,length(name),by=2]

獲取圖片名稱

然後建立目錄文件夾並下載

大功告成,喝口咖啡泡杯茶,閉目養神一小會兒,所有圖片已下載到你的硬碟。

學習累了 , 看下小姐姐 ,美滋滋。


推薦閱讀:

pandas的DataFrame
什麼是數據化管理
[長篇小說]數據分析俠A的成長故事【2017.2.25更】
為CharityML尋找捐獻者
如何解釋spss regression 和correlation 的一個圖例分析 ?

TAG:数据分析 |