如何使用excel進行數據分析

如何使用excel進行數據分析

數據分析步驟:

1. 提出問題:為後期的數據分析提供方向和目標。

2. 理解數據:採集數據,便於根據問題採集;查看數據信息。

3. 數據清洗:數據預處理。

4. 構建模型:對清洗後的數據進行分析,得出業務指標。

5. 數據可視化:便於與他人交流數據分析結果。

下面利用猴子老師提供的招聘網站爬取地數據進行練習。

提出問題

1. 在哪些城市找到數據分師工作的機會比較大?

2. 數據分師的薪水如何?

3. 根據工作經驗的不同,薪酬是怎樣變化的?

理解數據

表格中的數據包括了城市、公司全名、公司ID、公司簡稱、公司所在商區、職位所屬、教育要求、公司所屬領域、職位ID、職位福利、職位名稱、工作年限要求這些數據。

數據清洗

步驟:

1. 選擇子集。

對分析結果沒有幫助的數據列可以使用右鍵進行隱藏。

如果使用這列數據時,需要選擇兩側的數據列右鍵選擇取消隱藏。

2. 列名重命名。

如果需要對某個數據列名不滿意,可以雙擊單元格進行修改。

3. 刪除重複值。

職位ID是整個表格的唯一標識,如果重複則說明數據重複。需要利用刪除重複值操作。

4. 缺失值處理。

原始表格中會有各種各樣的缺少,需要進行補充。

a. 人工手動補充。適合缺失值較少的情況。

b. 刪除缺失數據。

c. 用平均值代替缺失值。

d. 用統計模型計算出的值代替缺失值。

由於表格中缺失值較少,可以使用定位功能進行補充。

5. 一致化處理。

指數據是否有統一的標準和命名。如表格中,在公司所屬領域一列,很多公司屬於多個領域——電子商務,數據服務,各個領域用逗號隔開。這種格式不一致,需要對這種數據進行統一命名。

由於分列會覆蓋數據,所以需要在I列後插入一列後再進行分列。

因為需要對平均工資做分析,所以需要新建三列——最低薪水、最高薪水、平均薪水。

可以使用分列或者函數(=LEFT(M2,FIND("-",M2)-2) |

=MID(M2,FIND("-",M2)+1,LEN(M2)-FIND("-",M2)-1))將最低、最高薪水求出,再使用平均函數將平均工資求出。

再使用篩選功能查看是否有錯誤值出現,進行處理。

6. 數據排序。

對平均薪水進行降序排列可以看到平均薪水最高的職位。

7. 異常值處理。

通過數據透視表發現不應該屬於數據分析職位的數據,則需要利用函數(=IF(COUNT(FIND({"數據分析","數據運營","分析師"},L2)),"是","否"))對職位名稱進行篩選,刪去不需要的數據。

構建模型

可以看出北京對數據分析的職位需求較大,佔到了總數的近一半,排在前五的還有上海、深圳、廣州、杭州。新一線城市的招聘需求也很大。

從工作年限來看,1至3年的的需求最大,排在第二的是3到5年。可以看出數據分析師是較為年輕的職業。

利用excel的數據分析功能,可以看到平均薪水的平均數是14k,中位數是12.5k,兩者較為接近,說明整個行業的薪水比較樂觀。

可以看出深圳職位的平均薪水最高,排在第二的是北京,其次是上海。而前四位的平均薪水都在14k以上,說明整個行業的待遇較好。

通過上面的分析,我們可以得到的以下分析結論有:

1. 數據分析這一崗位,有大量的工作機會集中在北上廣深以及新一線城市,如果你將來去這些城市找工作,可以提高你成功的條件概率。

2. 從待遇上看,數據分析師留在深圳發展是個不錯的選擇,其次是北京、上海。

3. 數據分析是個年輕的職業方向,大量的工作經驗需求集中在1-3年。

對於數據分析師來說,5年似乎是個瓶頸期,如果在5年之內沒有提升自己的能力,大概以後的競爭壓力會比較大。

4. 隨著經驗的提升,數據分析師的薪酬也在不斷提高,10年以上工作經驗的人,能獲得相當豐厚的薪酬。

推薦閱讀:

《七周成為數據分析師》課程近萬字總結與分析
pathon學習手冊(2)——藥店銷售數據分析
0026數據分析:數據透視

TAG:數據分析師 | 數據挖掘 |