用Python對斗圖網站的分析以及抓取

02-12

通過對斗圖網站的分析，利用抓取靜態網頁的方式對其進行抓取並保存到本地，適合新手進行學習。我從文科生的角度來書寫，真正的做到讓任何讀者都可以讀懂同時做到很好的入門。畢竟我也是文科生自學的，哈哈哈哈。PS：學習此文章需要具備Python的基本語法就可以。本章將帶領學習Python爬蟲里的requests和BeautifulSoup模塊。掌握了本節內容（掌握是指能靈活運用哦）基本的靜態網頁沒問題啦。花不多說，系好安全帶，發車。。。

首先最重要的是分析網頁結構：

下一頁呢：

可以發現下一頁後page變為6，7，，8等等，所以發現規律，細心就可以發現規律。為什麼這麼說，網頁是人寫的，為了偷懶就找些規律遍歷就行，就不用一頁一頁的寫。哦寫到這我好像懶癌犯了，，哈哈哈哈，還是得寫啊。。。哎啊啊啊。。。

import requests

from requests.exceptions import RequestException

from bs4 import BeautifulSoup

import re

import os

到這裡應該沒有基本的問題，就是導入基本的模塊和包啊啥的。我是這樣的先寫了requests和第二個和第三個的模塊包啥的，然後其他的用到在過來導入，因為不知道要用到那些啊啊哈哈哈哈。。。後面的OS模塊後邊會說到。別急啊。。。。這裡要說的是第二個，PS可能新手小萌新會問第二個是什麼東西啊，怎麼沒見過啊啊。。別急他是一個處理異常的，一會你就知道了。呵呵呵

header = {

user-agent:Mozilla/5.0

(Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101

Safari/537.36,

}

介紹怎麼找到請求頭部分以及作用：

網頁這裡單擊滑鼠右鍵看到檢查元素：找到圖中的內容，，

這個加入的請求頭部分，header是一個字典形式的存儲。

點擊進去就發現了奧妙，把它複製過來就行了，注意的是它是字典形式，必須用字典的規則來寫。作用當然是不然網站發現我們是爬蟲機器而是瀏覽器的行為，否則給封了。還玩毛線啊。

charset="UTF-8"

def get_page(url):

r = requests.get(url,headers=header,timeout=30)

try:

r.status_code == 200:

return r.text

return None

except RequestException:

return None

到這裡我們定義了一個函數get_page(url)，寫爬蟲必須要寫函數。用到了requests里的get來發起請求。這裡沒什麼好說的，後邊跟著請求頭部分和超時時間。然後就是重頭戲了try--except部分處理異常的內容。來一個邏輯思路，如果返回的狀態碼是200，我們就是返回r.text，否則返回第一個None，如果發起請求失敗返回第二個None。整個過程就是這樣一個邏輯在裡邊。這段代碼也可以作為基本的框架來書寫。所以呢就需要在requests里的exceptions內導入RequestException。到這裡我們得到了網頁的源代碼。可以列印出來看看。PS新手小萌最好全部手動列印出來看看，否則根本不知道得到的是什麼{就像我一樣都會列印出來看的，我也是新手啊哈哈哈哈哈}