使用EXCEL分析數據分析師的發展前景
使用EXCEL分析數據分析師的發展前景
第一步:提出問題:
1.在哪些城市找到數據分析工作的機會比較大?
2、數據分析師的薪水如何?
3、根據工作經驗的不同,薪酬是怎麼變化的?
第二步:獲取數據、理解數據
利用爬蟲工具在網上爬數據,爬取到6875條數據。
第三步:數據清洗
對爬取的數據,進行清洗:
1、刪除重複的數據
職位ID是唯一的標識,所以根據此列,刪除重複項。
共刪除1843項重複數據,剩下5031項數據。
2、看看有沒有我們需要分析的列有沒有缺失值。
我們需要用到:城市、工作年限、薪酬。
查看這3列的數據:
職位ID(唯一標識):5032
城市:5030項,缺2項。
工作年限:5032項,不缺。
薪酬:5032項,不缺。
填充缺失值:
使用篩選功能,找出空值,可以看到,這個公司都是在上海的,所以,填充上「上海」。
3、數據一致化處理
因為薪酬列的內容不是數字,無法進行計算,我們先要把4K變成4000這樣的形式才能計算。利用EXCEL的分列功能,處理成如下圖所示。
最低薪水:=LEFT(M2,FIND("k",M2)-1)
最高薪水:=MID(M2,FIND("-",M2)+1,LEN(M2)-FIND("-",M2)-1)
結果如下圖:
篩選時,發現「最低薪水」有錯誤值:
錯誤的來源在於,「薪水」中的K是大寫,使用:開始-查找和選擇-替換,將K替換成k:
替換了共175處,可以看到「最低薪水」列已經沒有錯誤值顯示。
查看「最高薪水」的錯誤值:
錯誤的來源是薪水沒有上限,只是寫**k以上,我們將最高薪水取值等於最低薪水,消除錯誤值。
將「最低薪水」和「最高薪水」用VALUE函數轉化為數字類型,用於計算平均薪水。
4、數據篩選
職位類型有很多不同的職位:
使用篩選,包含:數據分析,5031行數據找到1532行符合的數據。
第四步:構建模型
使用數據透視表作為分析模型:
1、在哪些城市找到數據分析工作的機會比較大?
結論:在北上廣深和杭州找到數據分析師的工作機會較大。越發達的地區,數據分析師的工作機會越多。
2、數據分析師的薪水如何?
由上圖可以看出:一線城市的薪水較高,特別是北京、深圳、上海。一線城市中廣州的薪水最低。
3、根據工作經驗的不同,薪酬是怎麼變化的?
結論:薪水隨著工作經驗的豐富而增加,數據分析師的起薪在7K以上,收入還是很不錯的。
推薦閱讀:
※今日數據行業日報(2017.03.17)
※AB 測試最佳實踐
※Data Art Online(一) :數據分析師轉職攻略
※(13)Python初入坑之時間序列基礎內容
※我的首次簡單」數據分析「
TAG:數據分析 |