「七步走戰略」輕鬆搞定數據分析

今日分享重點:數據分析的步驟

昨天分享的文章向大家簡要說明了數據挖掘及分析的概念,今天小編著重向大家分享一下在數據分析過程中應大致遵循怎樣的流程步驟(本文介紹的步驟偏向於數據分析師崗位類的商務業務數據分析流程),從而更好地進行數據分析。

第一步:確定問題

在進行真正的數據分析操作之前,要首先分析你的需要,你為什麼要進行數據分析,數據分析是為了什麼。一是確定解決或者弄明白為什麼的問題,二是確定涉及到的變數或者數據的問題,由此兩點,再去基於接下來科學的數據分析去提出策略解決問題。舉個case,一堆人站在你面前,你發現他們的身高有低有高,體型有胖有瘦,這個時候你想知道這是什麼原因造成的,此時你就確定了要弄明白的問題,接下來你又會想,是哪些因素造成的這種差異性呢?基因、飲食、性別、地域或者別的一些因素,這個時候你就是要確定哪些變數的問題。

第二步:數據採集

所謂的數據採集是收集被確定為數據需求的目標變數信息的過程。在數據的採集過程中,要遵循一些原則:準確性,代表性,廣泛性等,原則的遵循重點是為了保證後續相關決策的有效性。數據的收集可能會從現實中去調查,也有可能直接從相關的資料庫中調取。接著說例子,在上一步驟中,你確定了變數,這個時候你就要開始去收集採取變數數據了。

第三步:數據處理

數據處理也可以說是數據的規範化,需要把收集到的數據進行組織,包括根據相關分析工具的要求構建數據。例如,你用Excel進行處理時,必須先把他們錄入到表格的行和列中;你用spss進行分析時,不僅需要數據視圖的錄入,還需要變數視圖的錄入。你需要根據你和工具需要來處理數據。

第四步:數據清洗

數據清洗也成數據清理,有些人是把這一步驟和數據處理步驟放在一起了,你也可以這樣做,只是要記得這是兩個不同的先後繼承性的步驟,小編認為,在數據進行規範化處理之後,在進行清洗時會一目了然地發現問題解決問題,假設你把數據錄入到Excel表格中後,你會叫容易的發現那些變數存在空值異常值,此時你就需要對他們進行清洗處理,或者利用一些大家公認的方法(填充、刪除)進行處理。還接著那個例子說,在錄入數據後,你發現有幾個個體的身高是空值,這個時候你可以把他們直接刪掉,或者採用平均值進行填充;你也可能會發現一些異常值,比如某人身高特別高或特別低,這個時候也要進行清洗。不過,總的來說目的只有一個,就是從而保證數據的真實性與有效性。

第五步:數據分析

也稱為數據建模,完成以上步驟後,此時你就要來完成數據分析過程中的重頭戲了,結合統計學,計量經濟學等學科做定量分析,同時也要結合業務現實做定性分析、對數據進行描述性分析、探索性分析及信度效度的測量,儘可能建立科學準確的模型(如相關性、回歸分析),來識別數據變數之間的關係等。不可否認的是:在這一建模分析過程中,需要大量反覆的迭代工作來反覆驗證模型結果與假設的合理性。

第六步:數據可視化

按照上帝(顧客)或者boss的要求,將你數據分析的結果進行報告輸出,所謂的可視化簡單來說就是以圖表的方式展示出來,這樣會讓用戶更直觀的接受理解你的分析結果。

第七步:提供解決方案

以上幾步的完成,勉強說完成了整個業務分析的一半。你可能要問為什麼做了那麼多業務卻沒有多大的價值,別問為什麼,哪有那麼多為什麼。不要忘了你的上帝是要你做什麼的,是要你為他們解決問題,解決問題,解決問題。你需要想出合理的方案idea來解決上帝的問題。還記得我的前半生中的情節嗎:賀函離開比安提,直接空降到辰星做總監,關鍵是還把之前的客戶帶走了,為什麼,因為賀函有想法idea,能為客戶解決問題,而所謂的前幾個步驟,但凡是一個上了規模的諮詢公司,都能夠做到。按劇情開始時的情節來看,比安提之所以是比安提,辰星之所以是辰星,現在想想也不無道理。

希望以上內容有助於你理解數據分析的流程

敬請期待數據分析專篇系列後續

你們的關注點贊與轉發是我前進的最大動力

weixin.qq.com/r/7khQSPb (二維碼自動識別)

推薦閱讀:

推薦系統乾貨總結
數據缺失值的4種處理方法
玩轉Pandas,讓數據處理更easy系列5
還在與數據表格鬥毆?這12個數據可視化工具正準備來解放你
推薦系統日常與工作-PPT

TAG:數據分析 | Python | 數據挖掘 |