數據分析實戰-數據分析職位分析
來源數據:
鏈接: https://pan.baidu.com/s/1dHi0IYl 密碼: t6nc
分析的5個流程:明確目的,觀察數據,清洗數據,分析過程,得出結論。
一、分析目的
1、數據分析職位的平均薪資範圍
2、哪個城市對這個職位的需求最大
3、該職位,對學歷有什麼要求
#一切數據分析都是以業務為核心目的,而不是以數據為目的。
二、觀察數據
1、隱藏不需要的欄位值
companyFullName和companyShortName,2個欄位重複了,保留一個即可,保留companyShortName,因為ShortName對大眾來說,名稱熟悉度高,companyFullName隱藏;
2、查看數據是否有缺失值
數據的缺失值很大程度上影響分析結果。
通過選中excel中的列,在右下角查看計數,判斷數據是否缺失。
companyLabelList、businessZones、positionLables都有缺失,除了businessZones有比較多的缺失,其它都還好,不影響分析
3、查看數據是否一致化
查看了positionName列的職位名稱數據,有各種各樣的職位名稱,像品牌保護分析師實習生、足球分析師、數據合同管理助理等職位,並不是純粹的數據分析崗位,因此這些數據需要清洗。(為什麼呢?這是招聘網站的原因,有些職位明確為數據分析師,有些職位要求具備數據分析能力,但是又干其他活。招聘網站為了照顧這種需求,採用關聯法,只要和數據分析相關職位,都會在數據分析師的搜索結果中出現。)
4、數據是否有臟數據
臟數據對數據分析的影響很大,所以需要把臟數據清洗掉,才能得到比較準確的分析結果。
臟數據一般包括:亂碼,錯位,重複值,未匹配數據,加密數據等。
查看是否有重複數據,Excel可以直接用【數據】下的「刪除重複項」檢驗是否有重複項。
因為我們的主要目的是分析職位的相關情況,因此我們先查看下positionId(職位ID)是否有重複值。
結果發現,有1845個重複值,所以,將其刪除
5、數據標準結構
數據標準結構,就是將特殊結構的數據進行轉換和規整。
表格中,companyLabelList是數組類型的數據,需要將它們進行拆分,才能進行分析;
businessZones、positionLables、positionAdvantage也是類似的問題,也需要做數據拆分。
還有薪資這邊,是用的文本,不能進行計算,也需要將薪資拆分成可計算的2列數值
到這裡,我們對數據有了一個大致的了解,接下去 就是清洗數據,讓數據能夠為我們分析所用。
三、清洗數據
新建一個sheet
1、清洗薪資
把salary列的值拆成2列,分成最低薪資與最高薪資
使用FIND函數與LEFT函數組合,得到最低薪資的數字
=LEFT(P2,FIND("k",P2,1)-1),需要再把數字變成數值格式
通過RIGHT,LEN,FIND函數,得到最高薪資
=RIGHT(P2,LEN(P2)-FIND("-",P2,1))
再根據
=LEFT(S2,LEN(S2)-1),得到純數字
使用複製成值的形式,把數值複製到max_salary,不然函數的值的不能用來計算。
因為薪水不能以範圍來計算,因此用最高與最低工資的平均數來做為薪水的值,所以求薪資的平均數c
=AVERAGE(R2,S2)
檢查一下有沒有錯誤的值,通過篩選功能可以快速找到是否有錯誤的值
經過排查,發現薪資里有大寫的"K",而FIND函數是大小寫敏感的,因此,需要對大寫的K做處理,改成小寫的"k",重新做數據處理。
還能發現有些薪資寫的是10k以上,這種數據,把最高薪資的數據等於最低數據,簡單處理,方便分析。
companyLabelList是公司標籤,技能培訓、五險一金等等。直接用分列即可。
像「[]」""等符號,用替換功能即可處理掉。
接下來是positionName,上文已經講過有各種亂七八糟或非數據分析師職位,對了所以我們需要排除掉明顯不是數據分析師的崗位。
通過數據透視表可以很快的知道總的有多少個職位在表格中
總的有894種職位名稱在表格中,其中還包含一些跟數據分析不太相關的,所以需要把那些數據過慮掉。
用FIND和數組函數組合
=IF(COUNT(FIND({"數據分析","數據運營","分析師"},M33)),"1","0")
1為包含,0不包含。將1過濾出來,這就是需要分析的最終數據
四、分析過程
因為數據主要是文本,所以偏向匯總統計。(如果數值型的數據比較多,就會涉及到統計、比例等概念。如果有時間類數據,那麼還會有趨勢、變化的概念)
1、先用數據透視表匯總地區的統計情況
從表中可以看出,北京地區對該職位的需求量是最大的,其次是上海和深圳,其中每個地區都是以1-3年、3-5年的經驗最受歡迎。
2、使用數據透視表查看平均薪資
從表格中可以看出,所有地區的平均薪資在14.16k;深圳的平均薪資最高,北京次之,上海排第三。
廈門地區樣本數量雖然少,但是能看出,數據分析相關的職位,薪資水平都是中等偏上的。
做數據分析,對學歷的要求,大多數是要求本科學歷,佔據了將近有效數據的73%。
最後:
1、必須承認招聘數據的非客觀性,招聘的要求與實際對數據分析師的要求是有差異的。
2、數據分析師的工作需求還是很大的,尤其是在北上深等一線大型城市,並且待遇發展前景都不錯。
推薦閱讀:
※第一次製作數據報告
※分析競爭力,數字時代的差異化競爭優勢
※Python學習(二)
※小白python之路的開啟
※數據分析,讓你成為人群中的1%
TAG:數據分析 |