編程小白如何寫爬蟲程序
首先這是小白的Python新手教程。
下面為大家介紹一下Python,python是一種解釋型、面向對象、動態數據類型的高級程序設計語言。
Python 如今有2.x和 3.x兩大版本,支持windows和mac,linux三個平台,下面的例子以python2.7版本和windows平台為例子,為大家進行演示。
1.搭建環境,
Windows平台下安裝python2.7首先登錄python官方網站www.python.org下載的2.7.9版本,下載地址:
http://www.python.org/ftp/python/2.7.9/python-2.7.9.msi
然後,運行下載的MSI安裝包,在選擇安裝組件的一步時,勾上所有的組件。
然後選擇組件pip和add python.exe to path 。其中pip是python包管理工具,後期我們編寫爬蟲程序的包需要使用pip工具,所以必須勾選。Add python.exe to path 是配置環境變數。然後一路點擊next 就可以了。
如果安裝成功 會默認在c盤 根目錄生成一個python27的文件夾。然後在dos窗口輸入python命令,出現你安裝的python的版本信息,就表示你的電腦已經成功安裝了python。
2.第一個python程序
可以使用notepad++,或者自帶的記事本寫python代碼再將記事本的txt後綴改成py,或者直接使用python IDLE寫python 程序,然後輸入
print 「hello world」
按回車
歡迎各位又打開了一扇門。
3.第一個爬蟲程序了
首先python有許多完成各種需求的第三方包,其中編寫爬蟲程序會用到的第三方包,Requests,urllib2,httplib2三種包,下面以安裝urllib2為例,教你如何安裝第三方包,同樣在dos 窗口 ,輸入
pip install Urllib2
電腦會為你自動安裝 Requests包,然後開始寫爬蟲代碼,首先最簡單的爬蟲。
以urllib2為例
import urllib2url = "https://www.zhihu.com/"response = urllib2.urlopen(url)content = urllib2.urlopen(url).read()print "response headers:", response.headersprint "content:", content
運行以下代碼,便爬取了知乎的網頁。
這就是最簡單的爬蟲程序,這只是第一步,接下面會更加深入的介紹python,請各位關注接下來的課程。
———————————————————————————
看完本章內容可以接著學習
- 教你如何爬美眉圖片
推薦閱讀: