[python,pandas]數據分析求職指南——獵聘網數據分析職位解析
本文是獵聘網數據分析系列文章的第三篇,前兩篇分別為獵聘網爬蟲編寫和使用MySQL進行數據清。
數據來自獵聘網,使用爬蟲進行爬取,源數據及整個分析項目鏈接如下。
源數據:職位數據
爬蟲及數據分析項目源代碼:Ruiww/LiePinAnalysis
獵聘網職位爬取及分析系列文章已全部完成
系列文章一:[requests,pyquery]爬取獵聘網職位信息
系列文章二:[MySQL]獵聘網數據分析職位數據清洗
數據分析是數學與計算機科學相結合的產物,指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。越來越多的企業將選擇擁有項目數據分析經驗的專業人士為他們的項目做出科學、合理的分析,以便正確決策項目。
通過偶然的機會,我接觸到數據分析的相關理念,並對此產生了興趣,希望從事相關工作。然而在求職過程中,招聘網站的信息多而紛雜,難以了解數據分析相關職位整體的情況。
通過對獵聘網數據分析職位網頁的爬取與分析,形成這份數據分析求職指南,從地域、行業、公司薪酬等方面為數據分析的求職提供參考,並從需求技能層面進行分析,為想要從事數據分析的學習者提供方向。
分析思路
招聘需求分布
職位集中於計算機、金融領域,互聯網·電商行業職位數佔比達1/3,保險、銀行行業每家公司平均的職位需求最多
數據分析的行業分布圖顯示,職位需求TOP10中除服裝服飾行業外,均為計算機、金融、諮詢等日常工作中會產生以及需要處理大量數據的領域,與通常的印象相符。
圖中折線各點數值為相應行業職位數量/公司數量,衡量各行業平均每家公司對數據分析職位的需求程度。該指標與各行業需求職位數量的總數並不成正比,保險、銀行大於2,明顯高於平均水平,而服裝服飾、通信工程和網路遊戲行業需求程度較低。
TOP10中服裝服飾行業需求超過專業諮詢排到第7位令人意外,具體研究該行業的職位,發現崗位職責基本是對貨品、銷售數據進行整理分析,一個典型的服裝服飾行業數據分析職位的職責如下所示。
凡人優品 - 數據分析主管
1、依據公司年度目標和年度計劃,協助上級制定、規劃、實施運營分析部的年度工作目標和年度工作計劃,規劃全年商品數據銷售統籌及分解實施,制定新品上市計劃;2、協助上級完成每季產品發展策略、產品結構需求、品類計劃、產品銷售預測、銷售周期及降價期,與商品前期企劃工作緊密對接,建立並完善商品流通管理流程及管理體系,確保大商品鏈的正常運作; 3、直營店的具體銷售數據(產銷率、庫存率和庫存款式、終端斷款率和斷款款式、爆款率和爆款款式暢銷款式等)及實際情況,結合產品生命周期,負責各類數據的統計和分析,並分析各店鋪歷史銷售數據,有針對性制定各店鋪的上貨計劃; 4、負責各類銷售數據的統計與分析,每月、每周提交銷售數據分析報告及解決方案(促銷、清貨、調配、換貨); 5、商品報表分析(消化率、周轉率、折扣率、毛利率分析報表)。
行業-職位數佔比表明,職位的行業集中度高(互聯網·電商一個行業佔據了32.22%,TOP5佔比62.87%,TOP10佔比74.21%),求職時應重點考慮佔比排名靠前的行業。
各行業需求最多的前三個公司分別為:
職位集中於一線城市,北京、上海佔據總量的近60%
北上深廣四個1線城市佔據前四位,而北京、上海分別以818個職位,34.03%的佔比和559個職位、23.25%的佔比遙遙領先。
職位需求大的城市平均每家公司的需求量也較高,但天津市奇高。對天津市各公司的職位需求數量進行分組統計,發現捷信中國與捷信消費金融目前對數據分析職位有大量的需求,而天津有數據分析需求的公司數量較小,因此明顯拉高了其職位/公司比。
需求聚集在京津冀、長三角、珠三角與川渝四個地區,與當前互聯網行業的分布基本一致
從地區層面來說,職位主要分布在京津冀、長三角、珠三角與川渝四個地區,這樣的分布特徵也與當前互聯網行業的分布呈現明顯相關性,與職位的行業分布情況吻合。
主要城市職位需求的TOP 3公司為,Baidu(15)與阿里巴巴(18)不出所料在自己的大本營拔得頭籌,然而騰訊卻不在榜中,各城市中騰訊的職位需求總和為5。
中等規模公司需求量最大,1-49人初創公司的平均招聘需求最旺盛
100-400人中等規模的公司的需求數量最大。
1-49人規模的小公司平均職位需求最旺盛,具體觀察發現,這一規模的公司主要以天使輪與A輪融資的初創公司組成,人員流動性大,導致招聘需求旺盛。相應的,10000人以上的公司已發展到穩定期,因此員工流動性較小,職位數/公司數的值較低。
未細化的數據分析職位佔2/3,其後依次為大數據、數據挖掘與數據運營
大多數數據分析職位未進行細分,佔比66.53%。
需求量較大的行業中,IT服務與計算機軟體兩行業大數據類型的職位佔比較高,主要由許多toB的軟體與服務提供商組成。
薪酬與福利
數據分析薪酬在前四年穩步增長,4-6年出現瓶頸期,此後出現較大分化
企業職位中8年以上的職位數據較少,因此僅對前8年的薪酬進行分析,發現較為明顯的分為三個階段:
- 1-4年:薪酬30%-50%的速度增長
- 4-6年:薪酬出現瓶頸,大部分處於20-35萬之間
- 6年後:較第6年上升一個台階,但此階段分化程度很大,第7年Q3/Q1 = 2.22 , Q3-Q1 = 33.75
福利水平較高,社保、假期與發展空間相關詞出現最頻繁
對職位標籤進行分詞統計,獲得詞雲圖,並對TOP 10標籤進行了統計:
五險一金,帶薪年假,發展空間大,績效獎金,崗位晉陞,定期體檢,領導好,節日禮物,午餐補助,技能培訓
技能需求
對四類職位(數據分析、數據運營、數據挖掘、大數據)的崗位描述進行聚合併分詞,獲得詞雲。
由詞雲可以看出,職位的技能需求從數據分析和運營偏重業務與技術結合的層面,到數據挖掘的編程、機器學習,再到大數據的各類構架這一較倚重技術的方向。在求職準備時,可以根據自身情況,選擇職業類型,並根據所需技能進行重點的準備。
數據分析:SQL、EXCEL、統計學
數據運營:EXCEL、分析報告、SQL
數據挖掘:PYTHON、統計學、R
大數據:HADOOP、SPARK、JAVA
推薦閱讀:
※程序員簡歷應該怎麼寫?
※內向的人不愛說話,找工作是不是真的很困難?為什麼覺得跟人接觸很困難?
※什麼樣的簡歷能在HR眼裡是優秀的?