通過三個函數了解Python網路爬蟲

03-20

前言：

最近在學習Python網路爬蟲，在這裡分享一下自己的學習成果，這篇文章我不打算細究語法細節，而是想通過幾個函數梳理下網路爬蟲的過程。個人理解有不當的地方，還望大家指出。我認為網路爬蟲就是用自己的電腦去web伺服器(另一台電腦)上下載東西，其中涉及到兩個問題：

（1）怎麼讓自己的電腦和web伺服器連接

（2）正常連接之後，怎麼把想要的信息提取出來

爬蟲相關函數：

def get_html_text(url): #解決第一個問題 pass def get_info_list(html): #解決第二個問題 pass def print_info_list(info_list): #def download_info_list(info_list): pass

接下來，就讓我們圍繞這兩個問題和三個函數，去看看Python是怎麼解決的。

示例代碼：列舉了6個實際的爬蟲例子(基本只用到上面三個函數)

淘寶商品：鏈接: https://pan.baidu.com/s/1JUm_V2F46gOGva4KtIAEjg 密碼: kwvw

大學排名信息：鏈接: https://pan.baidu.com/s/1qzzOuxxii6gpn7_39cOwHQ 密碼: qenn

豆瓣電影Top：鏈接: https://pan.baidu.com/s/18cbIPm_ivYpJXhTVrUtq-g 密碼: 92ep

Github demo：鏈接: https://pan.baidu.com/s/1e9WCk6gtkKhKUHxgHAMUBA 密碼: eprg

股票信息：鏈接: https://pan.baidu.com/s/1XzGOJ5aVD1fIeQE1_flumg 密碼: vk5y

知乎圖片：鏈接: https://pan.baidu.com/s/1U2JOz5hfuqCj2i5jjtL2YQ 密碼: cgpv

requests獲取html：

我們想要的資源，比如文字、圖片等，其實都在html裡面。一個網頁的url，對應一個html，我們可以通過requests庫，輕鬆地和伺服器上的url建立連接，得到html信息。通過Response對象的status_code、text、encoding、content等方法，查看這次連接的情況如何。

def get_html_text(url): try: r = requests.get(url, timeout=30) r.raise_for_status r.encoding = r.apparent_encoding return r.text except: return "requests error"

但是，該函數返回的是一個str類型的html，這是非常不方便我們獲取信息的

BeautifulSoup解析html：

html頁面得到了，我們的爬蟲就完成了一半了。。。哈哈，開玩笑的，其實爬蟲最難的地方就在定位信息，特別是定位大量信息的時候。不過不著急，BeautifulSoup很好地幫我們解決了這個問題。它可以解析我們通過requests獲得的str類型的html，使其成為一個真正的html，我們可以通過標籤的屬性或名稱去定位標籤，可以定位標籤之後，獲取信息就方便多了。

def get_info_list(html): """ 獲取目標圖片的url鏈接 """ soup = BeautifulSoup(html,"html.parser") img_tags = soup.find_all("noscript") img_urls = [] for tag in img_tags: try: img_urls.append(re.findall(rsrc=".*?",tag.get_text())[0][5:-1]) except: continue return img_urls

TAG:Python入門 | Python開發 | python爬蟲 |