在上海,你知道哪個區的前端最熱么?
1 提出問題
因為以後定居在上海,就沒對其他城市進行分析, 在這裡對上海各個區做了一個前端崗位的數據採集,想知道如下幾個問題的答案
1 一般的公司對於前端的專業背景,工作經驗還有崗位職責都有什麼樣的要求,
2 薪酬待遇與地區,工作經驗的潛在關係
2 數據清洗階段
在第一關總共在前程無憂網搜集了接近10000條工作崗位的詳細信息,其中進行數據清洗後保留的數據欄位有工作崗位名稱,薪酬待遇,上班地點,崗位職責,還有工作經驗要求,其中由於其中一些被公式引用到公式無法刪除,只能選擇隱藏
2.1刪除重複項
因為只對上海地區的崗位斤進行分析,所以欄位中並不需要進行刪除重複項操作
2.2缺失值處理
以薪資還有工作地點作為缺失值的主要清理對象,造成薪資缺失的原因是部份工資並沒有在網站提供數據,直接刪除整行,沒有人任何分析的意義;造成工作地點缺失的原因是在多表聯動查詢過程中沒有找到匹配項,也採用直接刪除整行操作,進行兩步之後還剩餘8120條數據可供分析
2.3一致化處理
在分析過程中只需要上海各區的地點名,所以對工作地點進行分列操作,將每個崗位對應的區保留下來,刪除上海欄位,在分列過程中由於部分崗位也沒有提供詳細的地址,所以造成有空白值,直接進行篩選空白值和刪除;然後是薪資列,帶單位的薪資單元格由於是文本格式無法進行計算,需要用right,left,mid 和find函數進行轉換,處理後結果如下圖所示,添加平均工資輔助列,使用average函數計算各崗位平均工資
2.4 數據排序
對篩選出的數據進行按照自定義出的各區名稱進行,排序後的結果如下圖所示
2.5異常值處理
用數據透視表對數據進行異常值處理,通過大致瀏覽發現好多崗位與前端開發無關,先用數據透視表將崗位名稱作為行和計數項,並將行標籤按照計算項崗位名稱進行降序排序,然後通過find函數與if函數的嵌套篩選出與前端開發有關的工作(tips:可以將計數項前幾位的崗位名稱中的共有辭彙作為find函數的查找字元串防止多刪或者漏刪)
經過異常值處理候鳥只有3570條數據符合條件,下面可以對剩下的數據進行構建模型
3構建模型
首先對各區對於前端崗位的需求進行分析,將崗位名稱作為計數項,工作地點作為行
可以從結果看出對於前端開發的需求數浦東新區最高,而金山區最低,這裡還附上上海市各區分地理分布圖,可以看出浦東新區是上海最大的區,而且有許多的工業園區和高科技園區,所以對於很多互聯網和高科技行業有很大的需求量,雖然不能作為絕對的規律來使用,但在就業地域上的選擇可以作為有效的參考,可能青浦,奉賢和金山等地的房價租金相對便宜,但對於就業卻不是最好的選擇;
下面對於平均薪水進行分析
相對於就業崗位的優勢來說,在平均薪水方面浦東新區也有作為上海科技園高度集中的優勢,處於上海第一,而最低的金山區的平均薪水工資也達到了1.14萬元,對於很多想從事這行的待就業人員來說是個不錯的利好消息,應用Excel中的數據統計分析工具發現,篩選出的數據有異常值最大值為300,查看了這組數據的單位,發現是萬/年,在數據清理階段沒有將這個異常值刪除
針對不同工作經驗對於薪酬的影響,對於2-5年的需求量較大,而且隨著工作經驗的提升,薪酬也會有較快的增長,可以作為一個長期從事的行業,但從崗位職責來看,隨著工作經驗的增長,並不是只需要工作年限的增加,更需要工作方法還有工作能力,知識儲備的增加,不然即使工作七八年也不能達到市場的要求;
結論:
在住房,擇業過程中挑選浦東,徐匯,靜安對於人才需求量大的轄區,有更多的機會,更方便自己的工作,就因為當初沒有對市場需求做一個理性的分析,選擇工作的過程中沒有一個明確的方向,即使最後拿到了心水公司的offer,也可能因為距離公司太遠望而卻步。
推薦閱讀:
※數據分析這麼學。
※TED:5分鐘解讀最佳TED演講【129】
※Python筆記2 數據容器:列表、元組、集合、字典
※豆沙唇膏/口紅行業大數據分析報告:美妝必備好物 |決策狗
※數據清洗
TAG:數據分析 |