誰說菜鳥不會數據分析-工具篇
Excel作為數據分析最基本的工具,不僅功能強大,除了在處理大量數據時比較麻煩,其餘均可解決,下面是excel的作業部分;
用excel做數據必須有以下的步驟才能得到正確的結果;
- 提出問題
- 理解數據
- 數據清洗
- 構建模型
- 數據可視化
就招聘網站的表,做一份excel的數據分析
- 提出問題
我希望解決的問題如下:
- 哪個城市數據分析崗位最多
- 哪個領域數據分析崗位最多,並且工資範圍
- 工作年限對數據分析崗位對薪資的影響
- 學歷要求與薪水的相關性
- 理解數據
從招聘的源數據表可以看到的列名的欄位有:城市/公司全名/公司ID/公司簡稱/公司規模大小/公司所在地/職位所屬/教育要求/公司所屬領域/職位名稱/薪資/工作年限要求
- 哪個城市分析崗位最多
在源數據中將城市的記錄數進行計數
- 哪個領域數據分析崗位最多,並且工資範圍和職位是什麼?
在表格中有領域欄位,按照領域欄位進行計數,並且將工資進行範圍統計
- 工作年限對數據分析崗位對薪資的影響
按照工作年限統計工資範圍
- 學歷要求與薪水的相關性
類似問題3
- 數據清洗
在這不對列明進行重新命名直接從重複值開始
刪除重複值
數據-刪除重複值-選擇需要刪除重複值的欄位名-確定
缺失值處理
選中一列或者整個數據範圍的列表-ctrl+G(定位)-定位空值-輸入上海-ctrl+enter即可將所有的空值填充
一致化處理
在公司所屬領域發現內容格式不統一,現在處理成統一的內容格式
複製領域列(或者插入空白列)-選擇需要分列的列-數據-分列-分隔符號-下一步確定。
使用函數對薪資進行分列處理
在處理時發現有K的大小寫區分,需要統一才能完全處理
處理異常值
設置公式-複製-定位可見單元格-黏貼,格式是文本格式-去除篩選-複製-選擇性黏貼成數值-選中帶三角的數字-現在轉換成數字-計算平均薪資
- 構建模型
哪個城市數據分析崗位最多
擦汗如透視表-按照城市在列,年限在行用城市進行計數項處理-按照列百分比顯示
其中北京>上海>深圳>廣東
哪個領域機會最多,平均工資
以上所示:互聯網的數據需求最大,其次是金融/電子商務/數據服務;
以上是工作年限與薪資的增長關係,如上圖工作年限越長,薪資的增長速度越快。
- 薪水的描述統計分析
選項-載入項-轉到-勾選分析工具-數據-數據分析-描述統計-
以上是這期課程的回顧。
推薦閱讀:
※用EXCEL輕鬆入門數據分析
※基於變數KS最大化的分箱方案
※數據分析師的完整知識結構
※0028數據展現:數據條、圖標與迷你圖的製作
※機器學習演算法工程師?
TAG:數據分析師 |