如何使用excel進行數據分析

05-24

如何使用excel進行數據分析

數據分析步驟：

1. 提出問題：為後期的數據分析提供方向和目標。

2. 理解數據：採集數據，便於根據問題採集；查看數據信息。

3. 數據清洗：數據預處理。

4. 構建模型：對清洗後的數據進行分析，得出業務指標。

5. 數據可視化：便於與他人交流數據分析結果。

下面利用猴子老師提供的招聘網站爬取地數據進行練習。

提出問題

1. 在哪些城市找到數據分師工作的機會比較大？

2. 數據分師的薪水如何？

3. 根據工作經驗的不同，薪酬是怎樣變化的？

理解數據

表格中的數據包括了城市、公司全名、公司ID、公司簡稱、公司所在商區、職位所屬、教育要求、公司所屬領域、職位ID、職位福利、職位名稱、工作年限要求這些數據。

數據清洗

步驟：

1. 選擇子集。

對分析結果沒有幫助的數據列可以使用右鍵進行隱藏。

如果使用這列數據時，需要選擇兩側的數據列右鍵選擇取消隱藏。

2. 列名重命名。

如果需要對某個數據列名不滿意，可以雙擊單元格進行修改。

3. 刪除重複值。

職位ID是整個表格的唯一標識，如果重複則說明數據重複。需要利用刪除重複值操作。

4. 缺失值處理。

原始表格中會有各種各樣的缺少，需要進行補充。

a. 人工手動補充。適合缺失值較少的情況。

b. 刪除缺失數據。

c. 用平均值代替缺失值。

d. 用統計模型計算出的值代替缺失值。

由於表格中缺失值較少，可以使用定位功能進行補充。

5. 一致化處理。

指數據是否有統一的標準和命名。如表格中，在公司所屬領域一列，很多公司屬於多個領域——電子商務，數據服務，各個領域用逗號隔開。這種格式不一致，需要對這種數據進行統一命名。

由於分列會覆蓋數據，所以需要在I列後插入一列後再進行分列。

因為需要對平均工資做分析，所以需要新建三列——最低薪水、最高薪水、平均薪水。

可以使用分列或者函數（=LEFT(M2,FIND("-",M2)-2) |

=MID(M2,FIND("-",M2)+1,LEN(M2)-FIND("-",M2)-1)）將最低、最高薪水求出，再使用平均函數將平均工資求出。

再使用篩選功能查看是否有錯誤值出現，進行處理。

6. 數據排序。

對平均薪水進行降序排列可以看到平均薪水最高的職位。

7. 異常值處理。

通過數據透視表發現不應該屬於數據分析職位的數據，則需要利用函數（=IF(COUNT(FIND({"數據分析","數據運營","分析師"},L2)),"是","否")）對職位名稱進行篩選，刪去不需要的數據。

構建模型

可以看出北京對數據分析的職位需求較大，佔到了總數的近一半，排在前五的還有上海、深圳、廣州、杭州。新一線城市的招聘需求也很大。

從工作年限來看，1至3年的的需求最大，排在第二的是3到5年。可以看出數據分析師是較為年輕的職業。

利用excel的數據分析功能，可以看到平均薪水的平均數是14k，中位數是12.5k，兩者較為接近，說明整個行業的薪水比較樂觀。

可以看出深圳職位的平均薪水最高，排在第二的是北京，其次是上海。而前四位的平均薪水都在14k以上，說明整個行業的待遇較好。

通過上面的分析，我們可以得到的以下分析結論有：

1. 數據分析這一崗位，有大量的工作機會集中在北上廣深以及新一線城市，如果你將來去這些城市找工作，可以提高你成功的條件概率。

2. 從待遇上看，數據分析師留在深圳發展是個不錯的選擇，其次是北京、上海。

3. 數據分析是個年輕的職業方向，大量的工作經驗需求集中在1-3年。

對於數據分析師來說，5年似乎是個瓶頸期，如果在5年之內沒有提升自己的能力，大概以後的競爭壓力會比較大。

4. 隨著經驗的提升，數據分析師的薪酬也在不斷提高，10年以上工作經驗的人，能獲得相當豐厚的薪酬。