福布斯系列之數據採集 | Python數據分析項目實戰

01-27

1 數據採集概述

開始一個數據分析項目，首先需要做的就是get到原始數據，獲得原始數據的方法有多種途徑。比如：

本次福布斯系列數據分析項目實戰，數據採集方面，主要數據來源於使用爬蟲進行數據採集，同時也輔助其他數據進行對比。

本文主要是介紹使用爬蟲進行數據採集的思路和步驟。

本次採集的福布斯全球上市企業2000強排行榜數據，涉及年份從2007年到2017年，跨越10多年。

本次採集的目標網站，是多個網頁，但多個網頁的分布結構都有所不同，雖然思路和步驟都差不多，但需要分開來編寫，分別採集。

數據採集大體分為幾步：

涉及到的python庫包括，requests、BeautifulSoup以及csv。下面以採集某年的數據為案例，來描述下數據採集的步驟。

主要是基於 requests，代碼如下：

def download(url):
headers = {User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36}
response = requests.get(url,headers=headers)
# print(response.status_code)
return response.text

這個模塊會在主網頁數據下載，以及各個分頁面數據下載時使用，是一個比較通用的模塊。

主網頁的頁面結構，主要分為兩個部分，一類是包含其他頁面數據的網頁鏈接，一類是主網頁上的公司數據列表，以表格形式在網頁上顯示。

用BeautifulSoup可以把這些數據解析出來。代碼模塊如下：

步驟也是網頁頁面下載和表格類數據爬取。代碼內容跟主網頁頁面類似，只是細節上有些差異，這裡就不作贅述了。

採集的數據，最後保存到csv文件中。模塊代碼如下：

本文只介紹了數據採集的思路與各個模塊，並沒有提供目標網頁的鏈接，一方面由於原始網頁的數據信息比較雜亂，採集的時候需要寫多個採集程序，另外一方面，由於我們的重點在於後續的數據分析部分，希望不要著重於數據爬取。

在後續的分析過程中，我們會來查看數據的結構、數據完整性及相關信息，歡迎繼續關注。

如果您喜歡我的文章，歡迎關注我的微信公眾號「Python數據之道」（ID：PyDataRoad）。