一個簡單實例帶你輕鬆入門EXCEL數據分析

06-24

來自專欄數據分析（初級）

數據分析的步驟

1）提出問題

2）理解數據

3）數據清洗

4）構建模型

5）數據可視化

數據分析是的終極目的是解決現實問題，因此要從需求方的具體要求出發。

假設業務部門提供給我們一組關於數據分析師招聘崗位的相關信息，並且向我們提出如下問題:

1）在哪些城市找到數據分師工作的機會比較大？

2）數據分師的薪水如何？

3）根據工作經驗的不同，薪酬是怎樣變化的？

在整個進行操作的過程中，我們應該時刻保有一種歷史，就是每一步操作都為之後的操作做準備。因此每一個動作都是有用的，這是一種結果導向型的思維。

我們首先應該複製一份原數據的，副本，然後在副本上進行操作，而將原數據保留。

然後應該根據這三個問題，找出其中的關鍵詞，也就是理清楚我們到底要什麼樣的結果。

1）在哪些城市找到數據分師工作的機會比較大？ （城市）

2）數據分師的薪水如何？ （薪水）

3）根據工作經驗的不同，薪酬是怎樣變化的？（工作經驗與薪水的關係）

（數據分析師——職位名稱）

括弧里標出來的就是我們從這幾個問題裡面提取的關鍵詞。這就是所謂的理解問題。由此推出我們需要重點關注的列包括：「城市」「薪水」「工作經驗」「職位名稱」

下一步我們就要根據實際需要進行數據清洗。一般來說，數據清洗包括以下的幾個步驟，但是我們在具體操作時，可以根據實際情況靈活運用。

下面是我的原始數據

第一步：刪除重複值

第二步：缺失值處理

選中城市那一列，是用定位條件快捷鍵是ctral+g，定位條件選擇空值，然後所有的空值

都被選中，由於所有的空值都是上海，所以在第一個空格中直接輸入上海，然後按ctrl+enter,所有的空值都被填充了上海字樣。

第三步：薪水分列

對薪水一列將最高薪酬和最低薪酬提取出來，這裡有兩種方法，一種是利用分列功能，以「-」分列，然後用查找替換功能，把k消掉，第二種是利用len,left,right,mid等文本函數進行提取，由於老師講解是第二種方法，所以，我用第一種方法試驗一下。

需要注意的是使用分列功能時，最好把數據複製都最後一列，最後出現的數據是這樣的

第四步：數據透視表

從數據透視表中可以看出，所有城市中，深圳的平均薪酬最高，其次是北京和杭州，就業機會的話，北京最多，其次是上海，平均薪酬隨著工作年限的上升是越來越高的。