urllib2
利用urllib2庫進行信息採集的基本方法介紹,以http://www.baidu.com作為目標。
1、最最基本的用法:
import urllib2
response=urllib2.urlopen(www.baidu.com)
print response.read()
2、設置簡單的request對象:
import urllib2
request=urllib2.Request(www.baidu.com)
response=urllib2.urlopen(request)
print response.read()
3、設置帶參數的request對象:
import urllib
import urllib2
url=www.baidu.com
values={"name":"James", "address":"Shanghai", "country":"China"}
data=urllib.urlencode(values)
user_agent="Mozilla/5.0 (Windows NT 6.1; Win64; x64)"
headers={"User-Agent":user_agent}
request=urllib2.Request(url, data, headers)
response=urllib2.urlopen(request)
print response.read()
4、帶錯誤處理:
import urllib
import urllib2
url=www.baidu.com
values={"name":"James", "address":"Shanghai", "country":"China"}
data=urllib.urlencode(values)
user_agent="Mozilla/5.0 (Windows NT 6.1; Win64; x64)"
headers={"User-Agent":user_agent}
request=urllib2.Request(url, data, headers)
try:
response=urllib2.urlopen(request)
print response.read()
except urllib2.HTTPError as e:
print e.code
except urllib2.URLError as e:
print e.reason
else:
print "Everyting is OK."
註:HTTPError必須放在最前面。
推薦閱讀:
※入門:用Python抓取網頁上的免費賬號(三)
※3 個 Python 命令行工具
※教程推薦 | 機器學習、Python等最好的150餘個教程
※Python最好用的科學計算庫:NumPy快速入門教程(三)
※智慧水務軟體使用Ruby進行二次開發—基礎入門篇(二)