經歷絕望之後,來爬取知乎爬了幾張美圖
02-12
講道理的話,最近學習爬蟲一直懵逼,惆悵的一匹。經歷絕望之後,就找到知乎上的小姐姐來爬取圖片。
學習的小夥伴注意低調點,不要一下爬取很多,不然被反爬封IP就僵硬了。
我這次爬蟲用的是R語言。
首先確定目標網址: 擼串的假女神:你的日常搭配是什麼樣子?
載入組件
library("XML")
library("RCurl")
library("downloader")
獲取網址並解析
分析這個頁面,發現圖片都在<img>標籤內, 所以直接抓取img下的data-original的屬性值
清理數據,把重複的去掉
name <- link[1,length(name),by=2]
獲取圖片名稱
然後建立目錄文件夾並下載
大功告成,喝口咖啡泡杯茶,閉目養神一小會兒,所有圖片已下載到你的硬碟。
學習累了 , 看下小姐姐 ,美滋滋。
推薦閱讀:
※pandas的DataFrame
※什麼是數據化管理
※[長篇小說]數據分析俠A的成長故事【2017.2.25更】
※為CharityML尋找捐獻者
※如何解釋spss regression 和correlation 的一個圖例分析 ?
TAG:数据分析 |