一個簡單實例帶你輕鬆入門EXCEL數據分析
來自專欄數據分析(初級)
數據分析的步驟
1)提出問題
2)理解數據
3)數據清洗
4)構建模型
5)數據可視化
數據分析是的終極目的是解決現實問題,因此要從需求方的具體要求出發。
假設業務部門提供給我們一組關於數據分析師招聘崗位的相關信息,並且向我們提出如下問題:
1)在哪些城市找到數據分師工作的機會比較大?
2)數據分師的薪水如何?
3)根據工作經驗的不同,薪酬是怎樣變化的?
在整個進行操作的過程中,我們應該時刻保有一種歷史,就是每一步操作都為之後的操作做準備。因此每一個動作都是有用的,這是一種結果導向型的思維。
我們首先應該複製一份原數據的,副本,然後在副本上進行操作,而將原數據保留。
然後應該根據這三個問題,找出其中的關鍵詞,也就是理清楚我們到底要什麼樣的結果。
1)在哪些城市找到數據分師工作的機會比較大? (城市)
2)數據分師的薪水如何? (薪水)
3)根據工作經驗的不同,薪酬是怎樣變化的?(工作經驗與薪水的關係)
(數據分析師——職位名稱)
括弧里標出來的就是我們從這幾個問題裡面提取的關鍵詞。這就是所謂的理解問題。由此推出我們需要重點關注的列包括:「城市」「薪水」「工作經驗」「職位名稱」
下一步我們就要根據實際需要進行數據清洗。一般來說,數據清洗包括以下的幾個步驟,但是我們在具體操作時,可以根據實際情況靈活運用。
下面是我的原始數據
第一步:刪除重複值
第二步:缺失值處理
選中城市那一列,是用定位條件快捷鍵是ctral+g,定位條件選擇空值,然後所有的空值
都被選中,由於所有的空值都是上海,所以在第一個空格中直接輸入上海,然後按ctrl+enter,所有的空值都被填充了上海字樣。
第三步:薪水分列
對薪水一列將最高薪酬和最低薪酬提取出來,這裡有兩種方法,一種是利用分列功能,以「-」分列,然後用查找替換功能,把k消掉,第二種是利用len,left,right,mid等文本函數進行提取,由於老師講解是第二種方法,所以,我用第一種方法試驗一下。
需要注意的是使用分列功能時,最好把數據複製都最後一列,最後出現的數據是這樣的
第四步:數據透視表
從數據透視表中可以看出,所有城市中,深圳的平均薪酬最高,其次是北京和杭州,就業機會的話,北京最多,其次是上海,平均薪酬隨著工作年限的上升是越來越高的。
推薦閱讀:
※數據分析師之數據分析入門
※3-數據分析指標體系:
※提供一些實用的大數據可視化分析工具
※七周數據分析師:第二周業務篇,有關業務思維的學習。