標籤:

數據分析實戰-數據分析職位分析

來源數據:

鏈接: pan.baidu.com/s/1dHi0IY 密碼: t6nc

分析的5個流程:明確目的,觀察數據,清洗數據,分析過程,得出結論。

一、分析目的

1、數據分析職位的平均薪資範圍

2、哪個城市對這個職位的需求最大

3、該職位,對學歷有什麼要求

#一切數據分析都是以業務為核心目的,而不是以數據為目的。

二、觀察數據

1、隱藏不需要的欄位值

companyFullName和companyShortName,2個欄位重複了,保留一個即可,保留companyShortName,因為ShortName對大眾來說,名稱熟悉度高,companyFullName隱藏;

2、查看數據是否有缺失值

數據的缺失值很大程度上影響分析結果。

通過選中excel中的列,在右下角查看計數,判斷數據是否缺失。

companyLabelList、businessZones、positionLables都有缺失,除了businessZones有比較多的缺失,其它都還好,不影響分析

3、查看數據是否一致化

查看了positionName列的職位名稱數據,有各種各樣的職位名稱,像品牌保護分析師實習生、足球分析師、數據合同管理助理等職位,並不是純粹的數據分析崗位,因此這些數據需要清洗。(為什麼呢?這是招聘網站的原因,有些職位明確為數據分析師,有些職位要求具備數據分析能力,但是又干其他活。招聘網站為了照顧這種需求,採用關聯法,只要和數據分析相關職位,都會在數據分析師的搜索結果中出現。)

4、數據是否有臟數據

臟數據對數據分析的影響很大,所以需要把臟數據清洗掉,才能得到比較準確的分析結果。

臟數據一般包括:亂碼,錯位,重複值,未匹配數據,加密數據等。

查看是否有重複數據,Excel可以直接用【數據】下的「刪除重複項」檢驗是否有重複項。

因為我們的主要目的是分析職位的相關情況,因此我們先查看下positionId(職位ID)是否有重複值。

結果發現,有1845個重複值,所以,將其刪除

5、數據標準結構

數據標準結構,就是將特殊結構的數據進行轉換和規整。

表格中,companyLabelList是數組類型的數據,需要將它們進行拆分,才能進行分析;

businessZones、positionLables、positionAdvantage也是類似的問題,也需要做數據拆分。

還有薪資這邊,是用的文本,不能進行計算,也需要將薪資拆分成可計算的2列數值

到這裡,我們對數據有了一個大致的了解,接下去 就是清洗數據,讓數據能夠為我們分析所用。

三、清洗數據

新建一個sheet

1、清洗薪資

把salary列的值拆成2列,分成最低薪資與最高薪資

使用FIND函數與LEFT函數組合,得到最低薪資的數字

=LEFT(P2,FIND("k",P2,1)-1),需要再把數字變成數值格式

通過RIGHT,LEN,FIND函數,得到最高薪資

=RIGHT(P2,LEN(P2)-FIND("-",P2,1))

再根據

=LEFT(S2,LEN(S2)-1),得到純數字

使用複製成值的形式,把數值複製到max_salary,不然函數的值的不能用來計算。

因為薪水不能以範圍來計算,因此用最高與最低工資的平均數來做為薪水的值,所以求薪資的平均數c

=AVERAGE(R2,S2)

檢查一下有沒有錯誤的值,通過篩選功能可以快速找到是否有錯誤的值

經過排查,發現薪資里有大寫的"K",而FIND函數是大小寫敏感的,因此,需要對大寫的K做處理,改成小寫的"k",重新做數據處理。

還能發現有些薪資寫的是10k以上,這種數據,把最高薪資的數據等於最低數據,簡單處理,方便分析。

companyLabelList是公司標籤,技能培訓、五險一金等等。直接用分列即可。

像「[]」""等符號,用替換功能即可處理掉。

接下來是positionName,上文已經講過有各種亂七八糟或非數據分析師職位,對了所以我們需要排除掉明顯不是數據分析師的崗位。

通過數據透視表可以很快的知道總的有多少個職位在表格中

總的有894種職位名稱在表格中,其中還包含一些跟數據分析不太相關的,所以需要把那些數據過慮掉。

用FIND和數組函數組合

=IF(COUNT(FIND({"數據分析","數據運營","分析師"},M33)),"1","0")

1為包含,0不包含。將1過濾出來,這就是需要分析的最終數據

四、分析過程

因為數據主要是文本,所以偏向匯總統計。(如果數值型的數據比較多,就會涉及到統計、比例等概念。如果有時間類數據,那麼還會有趨勢、變化的概念)

1、先用數據透視表匯總地區的統計情況

從表中可以看出,北京地區對該職位的需求量是最大的,其次是上海和深圳,其中每個地區都是以1-3年、3-5年的經驗最受歡迎。

2、使用數據透視表查看平均薪資

從表格中可以看出,所有地區的平均薪資在14.16k;深圳的平均薪資最高,北京次之,上海排第三。

廈門地區樣本數量雖然少,但是能看出,數據分析相關的職位,薪資水平都是中等偏上的。

做數據分析,對學歷的要求,大多數是要求本科學歷,佔據了將近有效數據的73%。

最後:

1、必須承認招聘數據的非客觀性,招聘的要求與實際對數據分析師的要求是有差異的。

2、數據分析師的工作需求還是很大的,尤其是在北上深等一線大型城市,並且待遇發展前景都不錯。

推薦閱讀:

第一次製作數據報告
分析競爭力,數字時代的差異化競爭優勢
Python學習(二)
小白python之路的開啟
數據分析,讓你成為人群中的1%

TAG:數據分析 |