編程小白如何寫爬蟲程序

首先這是小白的Python新手教程。

下面為大家介紹一下Pythonpython是一種解釋型、面向對象、動態數據類型的高級程序設計語言。

Python 如今有2.x和 3.x兩大版本,支持windows和mac,linux三個平台,下面的例子以python2.7版本和windows平台為例子,為大家進行演示。

1.搭建環境,

Windows平台下安裝python2.7

首先登錄python官方網站www.python.org下載的2.7.9版本,下載地址:

python.org/ftp/python/2

然後,運行下載的MSI安裝包,在選擇安裝組件的一步時,勾上所有的組件。

然後選擇組件pip和add python.exe to path 。其中pip是python包管理工具,後期我們編寫爬蟲程序的包需要使用pip工具,所以必須勾選。Add python.exe to path 是配置環境變數。然後一路點擊next 就可以了。

如果安裝成功 會默認在c盤 根目錄生成一個python27的文件夾。

然後在dos窗口輸入python命令,出現你安裝的python的版本信息,就表示你的電腦已經成功安裝了python。

2.第一個python程序

可以使用notepad++,或者自帶的記事本寫python代碼再將記事本的txt後綴改成py,或者直接使用python IDLE寫python 程序,然後輸入

print 「hello world」

按回車

歡迎各位又打開了一扇門。

3.第一個爬蟲程序了

首先python有許多完成各種需求的第三方包,其中編寫爬蟲程序會用到的第三方包,Requests,urllib2,httplib2三種包,下面以安裝urllib2為例,教你如何安裝第三方包,同樣在dos 窗口 ,輸入

pip install Urllib2

電腦會為你自動安裝 Requests包,然後開始寫爬蟲代碼,首先最簡單的爬蟲。

以urllib2為例

import urllib2url = "https://www.zhihu.com/"response = urllib2.urlopen(url)content = urllib2.urlopen(url).read()print "response headers:", response.headersprint "content:", content

運行以下代碼,便爬取了知乎的網頁。

這就是最簡單的爬蟲程序,這只是第一步,接下面會更加深入的介紹python,請各位關注接下來的課程。

———————————————————————————

看完本章內容可以接著學習

  1. 教你如何爬美眉圖片

推薦閱讀:

TAG:Python入門 | 網頁爬蟲 | Python開發 |