DAY25：10行代碼搞定簡單python爬蟲核心

02-12

這兩天要做一個趣味問答活動，利用周末時間看了看python爬蟲，寫了個小demo，準備去網上爬點題庫??

主要做了下面幾件事：

1、環境準備

下載地址：http://www.python.org/download/

文檔地址：www.python.org/doc/

IDE下載：https://www.jetbrains.com/pycharm/download/（初學者還是下個IDE方便些）

2、開始編碼

第一步：導入包，這裡有個坑（如果你下的python版本是3.X，需要寫成from bs4 import BeautifulSoup4，才能正常下載）

import requestsfrom bs4 import BeautifulSoup

解釋一下這兩個包是做什麼的：

requests用來抓取網頁信息，BeautifulSoup用來幫助我們能快速解析html樹

第二步：建立一個Question類，用來存放我們需要的數據結構

class Question(object): id = title: answers:[] correctAnswer:"" def __init__(self): pass

第三步：抓取網頁並解析

headers = {User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.125 Safari/537.36}url = http://www.ggdoc.com/6IOc5Yip5Y_30/MmViZWI3YTI3NjBiZjc4YTY1Mjk2NDdkMjcyODRiNzNmMjQyMzZhNQ2/49.htmltry: # 載入網頁信息 req = requests.get(url,timeout=20)except (requests.exceptions.ReadTimeout,requests.exceptions.ConnectTimeout):#處理連接超時 print(time out)# 析取網頁信息pageData = BeautifulSoup(req.text, "html.parser")print(pageData)

由於還沒找到合適的抓取對象，先簡單寫個demo，回頭完善之後貼出全部代碼