標籤:

DAY25:10行代碼搞定簡單python爬蟲核心

這兩天要做一個趣味問答活動,利用周末時間看了看python爬蟲,寫了個小demo,準備去網上爬點題庫??

主要做了下面幾件事:

1、環境準備

下載地址:python.org/download/

文檔地址:www.python.org/doc/

IDE下載:jetbrains.com/pycharm/d(初學者還是下個IDE方便些)

2、開始編碼

第一步:導入包,這裡有個坑(如果你下的python版本是3.X,需要寫成from bs4 import BeautifulSoup4,才能正常下載)

import requestsfrom bs4 import BeautifulSoup

解釋一下這兩個包是做什麼的:

requests用來抓取網頁信息,BeautifulSoup用來幫助我們能快速解析html樹

第二步:建立一個Question類,用來存放我們需要的數據結構

class Question(object): id = title: answers:[] correctAnswer:"" def __init__(self): pass

第三步:抓取網頁並解析

headers = {User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.125 Safari/537.36}url = http://www.ggdoc.com/6IOc5Yip5Y_30/MmViZWI3YTI3NjBiZjc4YTY1Mjk2NDdkMjcyODRiNzNmMjQyMzZhNQ2/49.htmltry: # 載入網頁信息 req = requests.get(url,timeout=20)except (requests.exceptions.ReadTimeout,requests.exceptions.ConnectTimeout):#處理連接超時 print(time out)# 析取網頁信息pageData = BeautifulSoup(req.text, "html.parser")print(pageData)

由於還沒找到合適的抓取對象,先簡單寫個demo,回頭完善之後貼出全部代碼

推薦閱讀:

TAG:Python | 爬蟲 |