DAY25:10行代碼搞定簡單python爬蟲核心
這兩天要做一個趣味問答活動,利用周末時間看了看python爬蟲,寫了個小demo,準備去網上爬點題庫??
主要做了下面幾件事:
1、環境準備
下載地址:http://www.python.org/download/
文檔地址:www.python.org/doc/
IDE下載:https://www.jetbrains.com/pycharm/download/(初學者還是下個IDE方便些)
2、開始編碼
第一步:導入包,這裡有個坑(如果你下的python版本是3.X,需要寫成from bs4 import BeautifulSoup4,才能正常下載)
import requestsfrom bs4 import BeautifulSoup
解釋一下這兩個包是做什麼的:
requests用來抓取網頁信息,BeautifulSoup用來幫助我們能快速解析html樹
第二步:建立一個Question類,用來存放我們需要的數據結構
class Question(object): id = title: answers:[] correctAnswer:"" def __init__(self): pass
第三步:抓取網頁並解析
headers = {User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.125 Safari/537.36}url = http://www.ggdoc.com/6IOc5Yip5Y_30/MmViZWI3YTI3NjBiZjc4YTY1Mjk2NDdkMjcyODRiNzNmMjQyMzZhNQ2/49.htmltry: # 載入網頁信息 req = requests.get(url,timeout=20)except (requests.exceptions.ReadTimeout,requests.exceptions.ConnectTimeout):#處理連接超時 print(time out)# 析取網頁信息pageData = BeautifulSoup(req.text, "html.parser")print(pageData)
由於還沒找到合適的抓取對象,先簡單寫個demo,回頭完善之後貼出全部代碼
推薦閱讀: