大數據採集、清洗、處理案例

09-10

大數據採集、清洗、處理案例

1 大數據處理的常用方法

大數據處理目前比較流行的是兩種方法，一種是離線處理，一種是在線處理，基本處理架構如下：

在互聯網應用中，不管是哪一種處理方式，其基本的數據來源都是日誌數據，例如對於web應用來說，則可能是用戶的訪問日誌、用戶的點擊日誌等。

如果對於數據的分析結果在時間上有比較嚴格的要求，則可以採用在線處理的方式來對數據進行分析，如使用Spark、Storm等進行處理。比較貼切的一個例子是天貓雙十一的成交額，在其展板上，我們看到交易額是實時動態進行更新的，對於這種情況，則需要採用在線處理。

當然，如果只是希望得到數據的分析結果，對處理的時間要求不嚴格，就可以採用離線處理的方式，比如我們可以先將日誌數據採集到HDFS中，之後再進一步使用MapReduce、Hive等來對數據進行分析，這也是可行的。

本文主要分享對某個電商網站產生的用戶訪問日誌(access.log)進行離線處理與分析的過程，基於MapReduce的處理方式，最後會統計出某一天不同省份訪問該網站的uv與pv。

2 生產場景與需求

在我們的場景中，Web應用的部署是如下的架構：

即比較典型的Nginx負載均衡+KeepAlive高可用集群架構，在每台Web伺服器上，都會產生用戶的訪問日誌，業務需求方給出的日誌格式如下：

其每個欄位的說明如下：

根據給定的時間範圍內的日誌數據，現在業務方有如下需求：

統計出每個省每日訪問的PV、UV。

3 數據採集：獲取原生數據

數據採集工作由運維人員來完成，對於用戶訪問日誌的採集，使用的是Flume，並且會將採集的數據保存到HDFS中，其架構如下：

可以看到，不同的Web Server上都會部署一個Agent用於該Server上日誌數據的採集，之後，不同Web Server的Flume Agent採集的日誌數據會下沉到另外一個被稱為Flume Consolidation Agent(聚合Agent)的Flume Agent上，該Flume Agent的數據落地方式為輸出到HDFS。

在我們的HDFS中，可以查看到其採集的日誌：

後面我們的工作正是要基於Flume採集到HDFS中的數據做離線處理與分析。

4 數據清洗：將不規整數據轉化為規整數據

4.1 數據清洗目的

剛剛採集到HDFS中的原生數據，我們也稱為不規整數據，即目前來說，該數據的格式還無法滿足我們對數據處理的基本要求，需要對其進行預處理，轉化為我們後面工作所需要的較為規整的數據，所以這裡的數據清洗，其實指的就是對數據進行基本的預處理，以方便我們後面的統計分析，所以這一步並不是必須的，需要根據不同的業務需求來進行取捨，只是在我們的場景中需要對數據進行一定的處理。

4.2 數據清洗方案

原來的日誌數據格式是如下的：

但是如果需要按照省份來統計uv、pv，其所包含的信息還不夠，我們需要對這些數據做一定的預處理，比如需要，對於其中包含的IP信息，我們需要將其對應的IP信息解析出來;為了方便我們的其它統計，我們也可以將其request信息解析為method、 request_url、 http_version等，

所以按照上面的分析，我們希望預處理之後的日誌數據包含如下的數據欄位：

即在原來的基礎上，我們增加了其它新的欄位，如province、city等。

我們採用MapReduce來對數據進行預處理，預處理之後的結果，我們也是保存到HDFS中，即採用如下的架構：

4.3 數據清洗過程：MapReduce程序編寫

數據清洗的過程主要是編寫MapReduce程序，而MapReduce程序的編寫又分為寫Mapper、Reducer、Job三個基本的過程。但是在我們這個案例中，要達到數據清洗的目的，實際上只需要Mapper就可以了，並不需要Reducer，原因很簡單，我們只是預處理數據，在Mapper中就已經可以對數據進行處理了，其輸出的數據並不需要進一步經過Redcuer來進行匯總處理。

所以下面就直接編寫Mapper和Job的程序代碼。

4.3.1 AccessLogCleanMapper