EXCEL——數據分析師崗位分析
來自專欄猴子聊數據分析4 人贊了文章
本文主要應用EXCEL對招聘網站上數據分析職位的相關信息進行分析,數據來源於網路。
數據分析一般有五個步驟:提出問題,理解數據,數據清洗,構建模型,數據可視化。那麼,每一個步驟如何進行呢?在開始分析前我先製作了一份思維導圖,一份思維導圖幫助我們了解整個分析工作,避免遺漏要分析的信息,以及減少分析過程中出現的問題。
一、提出問題
一切數據分析都是以業務為核心目的,而不是以數據為目的,因此,我們首先要明白的就是我們分析的目的是什麼?也就是提出問題。本文主要分析以下幾個問題:
1.不同城市對數據分析師的需求如何?
2.數據分析師的薪資水平如何?
有了目標,我們就可以進行分析了。
二、理解數據
首先,我們先看一下columns的含義:
city 城市
companyFullName:公司全名
companyId:公司ID companyLabelList:公司介紹標籤 companyShortName:公司簡稱companySize:公司大小
businessZones:公司所在商區 firstType:職位所屬一級類目 secondType:職業所屬二級類目 education:教育要求 industryField:公司所屬領域 positionId:職位ID positionAdvantage:職位福利 positionName:職位名稱 positionLables:職位標籤salary:薪水
workYear:工作年限要求在提出問題階段以及通過我們的思維導圖,可以得出我們主要需要以下數據:city、industryField、positionName、salary、workYear。餘下的數據:
①companyFullName、companyId、companyShortName都是區分公司的留下一個companyID;
②positionId作為唯一標示,先不刪除;
③companySize、businessZones companyLabelList、firstType、secondType、positionAdvantage、positionLables這次分析都用不到,這些信息先隱藏,不要刪除;
以下大概就是我們需要的數據:
再仔細看一下:
①positionName里的職位真是非常多,有些數據工程師,數據專員等並不是我們需要分析的職位,還需要對職位進行篩選。
②salary一列數值格式不正確,這樣的數據我們並不能用來分析,還需要對數據進行一致化處理,對與salary我們採用平均工資進行分析。
三、數據清洗
1. 去除無關數據列
首先整理好我們需要的數據,對於原數據最好單獨保存一份,誰知道以後還會不會用到,把我們需要的數據取出來,這裡只保留我們需要的數據。
2.刪除重複值
以positionId/companyID作為唯一標示進行擴展,刪除重複項,可以看到有1845個重複值,已經刪除。
3.數據格式一致化處理
①salary列一致化處理
在理解數據階段,我們已經確認了用平均工資作為薪水分析,首先要先求出最高與最低工資,在進行平均求值,先建三個輔助列
最低工資就是第一個「k」之前的內容,輸入函數 「=--LEFT(H2,FIND("k",H2,1)-1)」。首先用Find函數找到第一個「k」的,我們不需要「k」,所以在減1,再用left函數截取,位置公式前加入「--」將結果變為數值,方便後面運算。
最高工資思路相同,由於是「-」』和第二個「k」中間的內容,這裡要用MID函數,使用公式「=--MID(H2,FIND("-",H2,1)+1,LEN(H2)-FIND("-",H2,1)-1)」。使用find函數找到「-」位置,加1,這也就是MID函數第二個值,再用len函數求出字元串長度減去「-」前長度,減一求出MID函數第三個值。
最後使用Ctrl+D進行填充求出所有值,用公式「=AVERAGE(I2:J2)」求出。
我們檢查一下是否有臟數據,對平均工資一列進行篩選發現竟然有錯誤值,why???仔細看原來「salary」一列數據格式不一致,「k」有大寫,還有「8k以上」,幸虧有檢查數據結果,另一方面也說明我們理解數據工作做得不到位,看來理解數據還是十分有必要的。
使用替換將「K」替換為「k」,由於「8k以上」沒有準確數值,最高最低都取「8k」,對錯誤值篩選,Top salary列公式和low salary列公式一樣就OK了,在檢查一下數據,現在沒有錯誤值了,處理OK。
② positionName列一致化處理
positionName有很多不是我們要分析的職位,先找出我們要的職位,建立輔助列輸入「=IF(COUNT(FIND({"數據分析","數據運營","分析師"},K19)),1,0)」,找出{"數據分析","數據運營","分析師"}職位,是結果為1,否則為0,最後對輔助列篩選,找出符合條件的數據。
四、構建模型
1. 不同城市對數據分析師的需求如何?
①根據城市與工作年限、崗位數建立數據透視表,我們可以發現北京的需求最大,其次是上海、、深圳,最後是杭州、廣州等城市,說明目前數據分析師這一職業還主要在一線城市及次一線城市,對於求職者,專註於一線城市更容易找到一份滿意的工作。
②通過數據透視表我們還發現1-3年和3-5年兩個時間段的缺口更大,說明數據分析師這一行業對於對於人才的需求已經逐漸增加,發展前景還是比較好的。此外,我們發現應屆畢業生似乎比1年一下經驗的更吃香,不過這也說明了這一行業對於新人也是有一定的需求的,對於應屆畢業生也是一個選擇方向。
2.數據分析師的薪資水平如何?
①薪資水平是我們比較關心,也是最在意的的了。總體來看,數據分析師的薪資還是挺高的,北京、深圳、上海達到了19k左右,杭州、蘇州、廣州達到了15k左右,其餘地區也達到了10k左右。不過,工作經驗對薪資水平的影響還是很大的,一年及以下大概在7k~8k,1~3年達到了13.8k,3~5年達到了20k,5~10年達到了26.84k,10年以上達到了37.17k。說明崗位的升值空間還是很大的,薪資水平也是比較高的,未來發展較好。
②我們發現工作的前五年薪資的漲幅是比較的大的,這說明工作前幾年是我們成長變化的最佳時期,對於數據分析師來說,充分利用這段時間成長,對於未來會有很大幫助的。此外我們發現廣州和深圳零經驗與一年工作經驗的漲幅比較大,排除數據量的影響,這說明對於應屆畢業生愛說,廣深是個不錯的選擇。
五、 數據可視化
最後是數據可視化。任何一項分析的最終都是要得出分析結果,展示給客戶或者老闆,那麼,採用何種方式展示以及展示圖表,展示流程也是很重要的,在文章的最後分享一下對於兩個問題製作的部分圖表,當然,可視化過程不止這些,如何有效的展示也是數據分析師必備的能力。
1.不同城市對數據分析師的需求如何?
2.數據分析師的薪資水平如何?
推薦閱讀:
※0017數據處理:數據抽取-欄位合併之CONCATENATE函數法
※tableau Prep 體驗
※你離數據整理大師只差一個 Google Data Studio
※python分析信用卡反欺詐(下)——兩種採樣方法解決數據不平衡及效果分析、模型調參示例
※3.6 數據化運營要抽樣還是全量數據
TAG:數據分析 |