如何使用excel進行數據分析
數據分析步驟:
1. 提出問題:為後期的數據分析提供方向和目標。
2. 理解數據:採集數據,便於根據問題採集;查看數據信息。
3. 數據清洗:數據預處理。
4. 構建模型:對清洗後的數據進行分析,得出業務指標。
5. 數據可視化:便於與他人交流數據分析結果。
下面利用猴子老師提供的招聘網站爬取地數據進行練習。
提出問題1. 在哪些城市找到數據分師工作的機會比較大?
2. 數據分師的薪水如何?
3. 根據工作經驗的不同,薪酬是怎樣變化的?
理解數據
表格中的數據包括了城市、公司全名、公司ID、公司簡稱、公司所在商區、職位所屬、教育要求、公司所屬領域、職位ID、職位福利、職位名稱、工作年限要求這些數據。
數據清洗
步驟:
1. 選擇子集。
對分析結果沒有幫助的數據列可以使用右鍵進行隱藏。
如果使用這列數據時,需要選擇兩側的數據列右鍵選擇取消隱藏。
2. 列名重命名。
如果需要對某個數據列名不滿意,可以雙擊單元格進行修改。
3. 刪除重複值。
職位ID是整個表格的唯一標識,如果重複則說明數據重複。需要利用刪除重複值操作。
4. 缺失值處理。
原始表格中會有各種各樣的缺少,需要進行補充。
a. 人工手動補充。適合缺失值較少的情況。
b. 刪除缺失數據。
c. 用平均值代替缺失值。
d. 用統計模型計算出的值代替缺失值。
由於表格中缺失值較少,可以使用定位功能進行補充。
5. 一致化處理。
指數據是否有統一的標準和命名。如表格中,在公司所屬領域一列,很多公司屬於多個領域——電子商務,數據服務,各個領域用逗號隔開。這種格式不一致,需要對這種數據進行統一命名。
由於分列會覆蓋數據,所以需要在I列後插入一列後再進行分列。
因為需要對平均工資做分析,所以需要新建三列——最低薪水、最高薪水、平均薪水。
可以使用分列或者函數(=LEFT(M2,FIND("-",M2)-2) |
=MID(M2,FIND("-",M2)+1,LEN(M2)-FIND("-",M2)-1))將最低、最高薪水求出,再使用平均函數將平均工資求出。再使用篩選功能查看是否有錯誤值出現,進行處理。
6. 數據排序。
對平均薪水進行降序排列可以看到平均薪水最高的職位。
7. 異常值處理。
通過數據透視表發現不應該屬於數據分析職位的數據,則需要利用函數(=IF(COUNT(FIND({"數據分析","數據運營","分析師"},L2)),"是","否"))對職位名稱進行篩選,刪去不需要的數據。
構建模型
可以看出北京對數據分析的職位需求較大,佔到了總數的近一半,排在前五的還有上海、深圳、廣州、杭州。新一線城市的招聘需求也很大。
從工作年限來看,1至3年的的需求最大,排在第二的是3到5年。可以看出數據分析師是較為年輕的職業。
利用excel的數據分析功能,可以看到平均薪水的平均數是14k,中位數是12.5k,兩者較為接近,說明整個行業的薪水比較樂觀。
可以看出深圳職位的平均薪水最高,排在第二的是北京,其次是上海。而前四位的平均薪水都在14k以上,說明整個行業的待遇較好。
通過上面的分析,我們可以得到的以下分析結論有:
1. 數據分析這一崗位,有大量的工作機會集中在北上廣深以及新一線城市,如果你將來去這些城市找工作,可以提高你成功的條件概率。
2. 從待遇上看,數據分析師留在深圳發展是個不錯的選擇,其次是北京、上海。
3. 數據分析是個年輕的職業方向,大量的工作經驗需求集中在1-3年。
對於數據分析師來說,5年似乎是個瓶頸期,如果在5年之內沒有提升自己的能力,大概以後的競爭壓力會比較大。
4. 隨著經驗的提升,數據分析師的薪酬也在不斷提高,10年以上工作經驗的人,能獲得相當豐厚的薪酬。
推薦閱讀:
※《七周成為數據分析師》課程近萬字總結與分析
※pathon學習手冊(2)——藥店銷售數據分析
※0026數據分析:數據透視