用數據分析的思路找數據分析的工作
作為一個在找工作的人,最主要的必然是海投簡歷,但是作為一名數據人,能否用數據分析的思路幫助自己去更好、更快地找工作呢?
答案是肯定可以的,而且數據分析的思路不僅適用於找數據分析的工作,可以說,幾乎找任何工作都可以用得到。(文末有彩蛋)
下面我就把自己的經歷放上來,歡迎各位朋友一起交流(E-mail:rockyxin@rockyxin.com)
首先,收集數據
採集工具:「八爪魚採集器」。
採集時間:2017年4月11日,21點。
採集方法:
- 打開智聯招聘首頁,選擇全國區域
- 在搜索框中輸入「數據分析」,回車進行搜索
- 將網址複製到八爪魚採集器中,使用單機採集方式,自動跳轉頁碼進行採集。
其他說明:此次採集內容包含公司名稱、薪資、工作地點、公司性質、公司規模及經驗、學歷要求等內容,共有5460條信息。
然後,處理數據
使用八爪魚採集器可以導出Excel、CSV等格式的文件,為方便後續其他操作,導出為CSV格式的文件。
主要將數據進行以下處理:
- 刪除重複數據1426條,得到有效數據4034條。
- 對原數據的欄位進行重編碼,原始數據中欄位均為拼音簡稱,將其改為漢字。如:將「gsmc」改為「公司名稱」
- 根據崗位職責,填充空缺信息,如:崗位職責中明確寫明要求本科學歷,而「學歷」欄位中為空,則將空值改為本科。
- 拆分原欄位「地點」,原數據中有諸如:北京-大興區,這樣的內容,為統一數據格式,將其分為兩個欄位:工作地點和具體地點,工作地點僅為市名,具體地點包含區名。
- 新增欄位:省份,根據工作地點欄位進行匹配省份名稱,首都及直轄市均保持原來內容。增加薪資下限、薪資上限,分別表示薪資列中的最小值和最大值。
- 對薪資欄位進行修改,原數據內容為「4001-6000」、「1000以下」、「面議」等,將區間分為「薪資下限」和「薪資上限」,面議的內容為空,1000以下,安裝0-1000拆分。
- 增加經緯度欄位,表示每個工作地點的經緯度。
- 修改經驗列,將所有類似於1-3年,3-5年,取最小值。
最終得到:19個欄位,4034條數據。
現在,開始分析
我比較感興趣的是以下幾個內容:
哪些公司在招聘? 哪些地方需求高? 招聘要求高不高? 薪資待遇好不好?
壹 / 哪些公司在招聘?
1、公司名稱
在4000多條信息中,共有1764個公司在招聘,版面有限,不能將這些公司全部放上來,所以選取了招聘數量最多的前20名。
前三名就佔了幾乎四分之一。排除前三名後,再看一下整體情況及前20名的公司。
2、公司性質
可以看出,股份制和民營企業需求最大,
3、公司規模
公司規模按照人數來劃分,從圖形來看,基本上滿足正態分布。
不過也可以看得出來,大部分公司人數都是蠻多的。可以想像,小規模的公司,需求都不會太高。
貳 / 哪些地方需求高?
底下的幾張地圖,用的是Tableau繪製的,畢竟Tableau的交互比較方便。首先來看看各省的招聘數量。
各省招聘數量,顏色越深代表需求數量越大,青海、新疆兩個地區為0。
可以看出,北京作為排頭兵,領先不止一點點,其次就是長三角和珠三角,在招聘需求上,一線城市的缺口還是很多的。
當然,招聘需求多只是一方面,給出的待遇如何呢?
各省平均薪資,顏色越深代表薪資越高,青海、新疆兩個地區為0。
不可思議的是薪資最高的居然是西藏。
原因很簡單,西藏的招聘信息只有一條,給出的薪資待遇是10001-15000元,平均一下之後呢,就是12500.5元。
上海的平均薪資是10406元,北京是9335元,除此之外的江蘇、廣東也不過8849和8145元。浙江在這輪比拼中稍遜一籌,只有6156。
第四名往後的分別是:湖北(6743.64)、海南(6667)、內蒙古(6500.4)、安徽(6388.23)、廣西(6333.5)、貴州(6285.93)、四川(6220.43)。
看完了以省為單位的分析,再細分到城市,看一看具體是哪些城市對於數據分析的招聘需求大,也看一看哪些城市比較土豪。
各市招聘情況分布,圓圈大小代表招聘數量多少,顏色深淺代表平均薪資高低。
可以看出,不管是需求還是薪資,北京、長三角、珠三角一直霸佔三強寶座。
當然,內陸的需求主要集中在省會城市,比如,西安、成都、鄭州、合肥、濟南,這些在地圖上的數據都很明顯。
所以,大數據蓬勃發展的時代,各個地方的需求和待遇都不錯。當然,想要更好一點的機會和大於,還是優先考慮北京、長、珠三角。
叄 / 招聘要求高不高?
這一方面的維度不好把握,所以主要從學歷要求和工作經驗來進行分析。
學歷要求
簡單統計一下數量之後,發現要求並不是很高。其中有個類別是空白,這個可以當做不限來看待。因此,招聘需求主要集中在大專、不限和本科。
工作經驗
工作經驗中,有些數據是這樣的:1-3年,3-5年,因此,為了統一口徑,所有類似的數據都在處理數據時進行了取最小值。所以,工作經驗指代的是,最低的工作經驗要求。
可以看到,最明顯的就是還是有空白數據,完全搞不懂這些公司是怎麼想的,難倒沒有要求嗎?
除此之外,1年和3年的工作經驗最為吃香。
畢竟大數據發展並沒有很長時間,三年工作經驗可以當做中流砥柱,帶來的效益很明顯;而一年工作經驗的人,最起碼可以不經培訓就上手開始工作,人力成本大大降低。
所以,無論是學歷還是工作經驗,要求上來說都不是很高。這對於找工作的人來說,無疑是一個好消息。
肆 / 薪資待遇好不好?
本部分內容比較多,從以下幾個方面進行分析:
1. 簡述 2. 公司 3. 地點 4. 要求
簡述
因源數據都是薪資區間,形式諸如:1000元以下,4001-6000元。因此,新增了三列,分別放置:最低薪資,最高薪資,及平均薪資。
以下主要按照平均薪資作為衡量指標。
首先看看平均薪資的幾個指標:
最小值:50025%分位數:5000中位數:7000均值:837375%分位數:9000最大值:125000
還有59個缺失值,缺失值的數據呢,就表示薪資為面議。
可以看出,5001-10000元的區間最多,2090個,幾乎佔了一半;其次就是0-5000,有點慘的感覺。而且隨著薪資的上漲,數量越來越少,到最後,就少得可憐了。
尤其從10000開始,似乎是斷崖式的墜落,15000以上,只有159個。
高薪不是沒有,只是太少了。
公司
1. 公司規模
離群值影響太大,圖表無法完全展示信息,因此,將40000以上定為離群值,進行剔除。
先看中位數,規模在10000人以上的公司,反而給的最少,20人以下的公司反而給的最多。
再看四分位距,大部分在5000以內,而且多數分布在5000至10000這個區間內。
2. 公司性質
還是一樣,由於離群值的影響,無法展示全部的信息,所以,還是一樣篩選40000以下的數據。
前面提到過,股份制企業跟民營企業的需求量最大,現在從薪資方面來看,不僅需求量大,薪資的分布區間也很大,高的特別高,低的特別低。
從中位數來看的話,還是國企和事業單位領先一點。大數據時代可能還是會有「鐵飯碗」。
地點
已經畫過了兩張不同地區的薪資水平情況分布圖,所以這裡就不做仔細闡述,先把之前的兩張圖放上來。
各省招聘數量,顏色越深代表需求數量越大,青海、新疆兩個地區為0。
各省平均薪資,顏色越深代表薪資越高,青海、新疆兩個地區為0。
以上兩張是用Tableau做的,為了好(zhuang)看(bi),特意用Excel的三維地圖做了一個三維的熱力圖,如下:
要求
同樣,此處還是分為學歷和工作經驗。
除去不限和空白的數據,博士學歷的幾項指標都比較高,其次就是碩士。
當然也可以看得到,本科和大專的部分離群值也比較高,甚至高過博士和碩士的最大值,說明學歷並不完全是衡量薪資水平的標準,只能說隨著學歷的上升,薪資也有一定的提高。
由上圖可以看出,薪資的多寡,在一定程度上與工作經驗確實有關係。同時可以看出,3年和5年的區間跨度最大。所以,經驗的累加並不完全能給我們帶來薪資的增長,更重要的,還是得看實力。
最後,分享一下源數據和源代碼。
鏈接: http://pan.baidu.com/s/1qXGMP20
密碼: kxsb
聯繫小鑫:rockyxin@rockyxin.com
推薦閱讀:
※Learn R | 數據預處理中的缺失值(上)
※Learn R | 交互可視化之Plotly包(二)
※ggplot2雙坐標軸的解決方案