標籤:

誰說菜鳥不會數據分析-工具篇

誰說菜鳥不會數據分析-工具篇

Excel作為數據分析最基本的工具,不僅功能強大,除了在處理大量數據時比較麻煩,其餘均可解決,下面是excel的作業部分;

用excel做數據必須有以下的步驟才能得到正確的結果;

  • 提出問題
  • 理解數據
  • 數據清洗
  • 構建模型
  • 數據可視化

就招聘網站的表,做一份excel的數據分析

  1. 提出問題

我希望解決的問題如下:

  1. 哪個城市數據分析崗位最多
  2. 哪個領域數據分析崗位最多,並且工資範圍
  3. 工作年限對數據分析崗位對薪資的影響
  4. 學歷要求與薪水的相關性
  5. 理解數據

從招聘的源數據表可以看到的列名的欄位有:城市/公司全名/公司ID/公司簡稱/公司規模大小/公司所在地/職位所屬/教育要求/公司所屬領域/職位名稱/薪資/工作年限要求

  1. 哪個城市分析崗位最多

在源數據中將城市的記錄數進行計數

  1. 哪個領域數據分析崗位最多,並且工資範圍和職位是什麼?

在表格中有領域欄位,按照領域欄位進行計數,並且將工資進行範圍統計

  1. 工作年限對數據分析崗位對薪資的影響

按照工作年限統計工資範圍

  1. 學歷要求與薪水的相關性

類似問題3

  1. 數據清洗

在這不對列明進行重新命名直接從重複值開始

刪除重複值

數據-刪除重複值-選擇需要刪除重複值的欄位名-確定

缺失值處理

選中一列或者整個數據範圍的列表-ctrl+G(定位)-定位空值-輸入上海-ctrl+enter即可將所有的空值填充

一致化處理

在公司所屬領域發現內容格式不統一,現在處理成統一的內容格式

複製領域列(或者插入空白列)-選擇需要分列的列-數據-分列-分隔符號-下一步確定。

使用函數對薪資進行分列處理

在處理時發現有K的大小寫區分,需要統一才能完全處理

處理異常值

設置公式-複製-定位可見單元格-黏貼,格式是文本格式-去除篩選-複製-選擇性黏貼成數值-選中帶三角的數字-現在轉換成數字-計算平均薪資

  1. 構建模型

哪個城市數據分析崗位最多

擦汗如透視表-按照城市在列,年限在行用城市進行計數項處理-按照列百分比顯示

其中北京>上海>深圳>廣東

哪個領域機會最多,平均工資

以上所示:互聯網的數據需求最大,其次是金融/電子商務/數據服務;

以上是工作年限與薪資的增長關係,如上圖工作年限越長,薪資的增長速度越快。

  1. 薪水的描述統計分析

選項-載入項-轉到-勾選分析工具-數據-數據分析-描述統計-

以上是這期課程的回顧。


推薦閱讀:

用EXCEL輕鬆入門數據分析
基於變數KS最大化的分箱方案
數據分析師的完整知識結構
0028數據展現:數據條、圖標與迷你圖的製作
機器學習演算法工程師?

TAG:數據分析師 |