【編程外行】如何假裝會編程,爬取數據
來自專欄唱唱反調4 人贊了文章
家有老婆,一個半路出家的獵頭。她平生最恨的事情,就是編程和物理。為什麼討厭物理?她說是因為高一的時候她問我物理題目,我都是這樣教她的:「這個就是這樣,沒有為什麼。」於是她抄了我一年的物理作業,抄去了文科班。
「那你為什麼討厭編程呀?編程入門是文科呀,這不就和學英語一樣一樣的么?」
「因為那時我問你,這個為什麼這麼寫,你說這個就是這樣的,沒有為什麼!!!」
好吧,看來不會編程和物理,還真的都是我的鍋。
所以以下是寫個老婆的一個不編程也可以處理爬取網頁表單數據的教程,幫助她完成工作中需要的收集數據的任務。
設:進入某網站資料庫,進行一個大致的搜索後,鎖定了50頁的搜索結果,現在要下載搜索結果進行進一步篩選。
不想編程很簡單,下載AI爬蟲插件,Instant Data Scraper。
https://chrome.google.com/webstore/detail/instant-data-scraper/ofaokhiedipichpaobibbnahnkdoiiah
下載以後在Chrome裡面調用,會有一個精靈球出現在插件欄。
現在我們打開搜索結果頁面,現在在我的例子里,選用douban的我看過的電影表單,到達表單頁面後單機精靈球,AI自動幫我們找了要爬取的內容,加大紅框顯示。如果AI智商不夠,可以點擊try another table換區域,不過大部分時間智商都是挺夠用的。
去掉幾個不想要的列,留下想要的數據
然後點擊「locate next button,手動找到下一頁的按鈕。點擊按鈕後按鈕會變綠。
然後只要點擊start crawling,就開始自動爬取頁面了,兩個delay時間是用來防止反爬蟲的,所以不調也可以,就是會比較慢。爬到沒東西可以爬了會自動報錯停止,這時候點XLSX就可以下載輸出excel文件了。
這個插件適合爬取簡單的表單頁面,更複雜的的插件有沒有?!有,但是我們下回分解。。。
推薦閱讀:
※【應用】利用IPFS在全球範圍內掛載你的分散式Git遠程倉庫
※【科學秀】基因與伴侶選擇的奧秘
※亮劍!馬雲突然宣布,美措手不及!
※黑科技八大人體增強設備
※抓娃娃機大揭秘~抓不到娃娃不怨你