一個簡單實例帶你輕鬆入門EXCEL數據分析

一個簡單實例帶你輕鬆入門EXCEL數據分析

來自專欄數據分析(初級)

數據分析的步驟

1)提出問題

2)理解數據

3)數據清洗

4)構建模型

5)數據可視化

數據分析是的終極目的是解決現實問題,因此要從需求方的具體要求出發。

假設業務部門提供給我們一組關於數據分析師招聘崗位的相關信息,並且向我們提出如下問題:

1)在哪些城市找到數據分師工作的機會比較大?

2)數據分師的薪水如何?

3)根據工作經驗的不同,薪酬是怎樣變化的?

在整個進行操作的過程中,我們應該時刻保有一種歷史,就是每一步操作都為之後的操作做準備。因此每一個動作都是有用的,這是一種結果導向型的思維。

我們首先應該複製一份原數據的,副本,然後在副本上進行操作,而將原數據保留。

然後應該根據這三個問題,找出其中的關鍵詞,也就是理清楚我們到底要什麼樣的結果。

1)在哪些城市找到數據分師工作的機會比較大? (城市)

2)數據分師的薪水如何? (薪水)

3)根據工作經驗的不同,薪酬是怎樣變化的?(工作經驗與薪水的關係)

(數據分析師——職位名稱)

括弧里標出來的就是我們從這幾個問題裡面提取的關鍵詞。這就是所謂的理解問題。由此推出我們需要重點關注的列包括:「城市」「薪水」「工作經驗」「職位名稱」

下一步我們就要根據實際需要進行數據清洗。一般來說,數據清洗包括以下的幾個步驟,但是我們在具體操作時,可以根據實際情況靈活運用。

下面是我的原始數據

第一步:刪除重複值

第二步:缺失值處理

選中城市那一列,是用定位條件快捷鍵是ctral+g,定位條件選擇空值,然後所有的空值

都被選中,由於所有的空值都是上海,所以在第一個空格中直接輸入上海,然後按ctrl+enter,所有的空值都被填充了上海字樣。

第三步:薪水分列

對薪水一列將最高薪酬和最低薪酬提取出來,這裡有兩種方法,一種是利用分列功能,以「-」分列,然後用查找替換功能,把k消掉,第二種是利用len,left,right,mid等文本函數進行提取,由於老師講解是第二種方法,所以,我用第一種方法試驗一下。

需要注意的是使用分列功能時,最好把數據複製都最後一列,最後出現的數據是這樣的

第四步:數據透視表

從數據透視表中可以看出,所有城市中,深圳的平均薪酬最高,其次是北京和杭州,就業機會的話,北京最多,其次是上海,平均薪酬隨著工作年限的上升是越來越高的。


推薦閱讀:

數據分析師之數據分析入門
3-數據分析指標體系:
提供一些實用的大數據可視化分析工具
七周數據分析師:第二周業務篇,有關業務思維的學習。

TAG:數據分析 | 數據分析師 | 數據挖掘 |