爬取拉勾網,深入了解互聯網金融數據分析師
項目背景
本人自2017年10月起,立志自學成為一名數據分析師,至今通過知乎、微信公眾號、慕課網、煉數成金等渠道自學了很多相關知識與技能。因為長期以來一直對金融行業有著濃厚的興趣,自學期間考取了證券從業資格證,通過互聯網金融相關公眾號和行業報告使我有了更為深入的了解,外加目前互聯網金融行業十分火熱、有著非常廣闊的發展前景,進一步促進了我從事互聯網金融行業數據分析師的決心。
既然想要從事數據分析師的工作,就要對該崗位的屬性有一定的了解。此項目本著重溫部分軟體操作和深入了解該崗位的目的,利用爬蟲軟體爬取拉勾網上數據分析師這一崗位的信息,通過一些統計描述和深入探索,從企業的實際招聘信息中獲取需求訊息,進而指導自己未來的學習方向。
目的
通過實際的數據來分析描述數據分析師的一些崗位屬性,具體來說,主要有一下目的:
① 數據分析師崗位需求的地域性分布;
② 該崗位對學歷的需求情況;③ 該崗位對工作經驗的需求情況;
④ 根據工作經驗的不同,不同融資階段的公司對該崗位的需求情況;⑤ 隨著工作經驗的變化,薪酬範圍的變化情況;⑥ 從招聘要求來看,數據分析師應當具備哪些素質和技能。
閱讀路線:
- 數據採集
- 數據整理
- 數據分析
- 分析結論
- 思考與總結
數據採集
此次項目的數據集來源於拉勾網,是通過八爪魚這一網路爬蟲軟體爬取拉勾網2018年2月3日金融行業的數據分析師崗位信息。由於拉勾網本身的限制,僅能爬取30頁的崗位信息,外加八爪魚默認自動過濾重複信息,最終一共爬取430條有效無重複記錄。
本次爬取拉勾網,主要獲得了以下信息:
崗位名稱、月薪、地點、經驗、學歷、公司名稱、發展階段、行業領域、職位描述
數據整理
通過爬取拉勾網,獲得如下數據(下圖僅顯示部分):
●獲取最低月薪與最高月薪
最低月薪:【C2】=LEFT(B2,FIND("k",B2)-1)
最高月薪【D2】=LEFT(MID(B2,FIND("-",B2)+1,6),FIND("k",MID(B2,FIND("-",B2)+1,6))-1)
●整理城市信息:
【F2】=MID(E2,FIND("/",E2)+1,3)
●整理經驗信息:
【H2】=MID(G2,SEARCH("經驗",G2)+2,FIND("/",G2)-FIND("經驗",G2)-2)
●整理學歷信息:
【J2】=IF(ISERROR(LEFT(I2,FIND("及",I2)-1)),LEFT(I2,FIND("/",I2)-1),LEFT(I2,FIND("及",I2)-1))
●整理髮展階段信息:
【M2】=IF(ISERROR(LEFT(L2,FIND("及",L2)-1)),LEFT(L2,FIND("發展",L2)-1),LEFT(L2,FIND("及",L2)-1))
數據分析
① 該崗位需求的地域性分布
如上圖可見,在該數據集中共有18個城市有互聯網金融行業數據分析師的人才需求,其中有近40%的需求量在北京。排名前五的城市是:北京、上海、深圳、杭州、廣州。
上海作為國際金融大都市,很令人意外的排名第二位,但由於互聯網金融是傳統金融與互聯網模式的融合,而在我國互聯網企業大規模集聚與北京,所以這個結果到也是合乎現實。
② 該崗位對學歷的需求情況
很明顯,該崗位對於本科學歷的需求量最高,以80%以上的需求量佔比遙遙領先於大專和碩士。
③ 該崗位對工作經驗的需求情況
由圖可知,對於數據分析師崗位,工作經驗在1-3年和3-5年的需求量最高且不相上下,工作經驗不限和要求在3-5年的也有一定的佔比。工作經驗在1年以下的需求量極小,這也可能涉及此數據集的爬取時間在2月份,此時校招等需求較少對此次爬取結果的統計分析有一定的影響。
④ 工作經驗1-3年,不同融資階段的公司對該崗位的需求情況
其中,不需要融資的公司對於該崗位的需求量最高,其中大部分是由於其業務有原有傳統金融業務作為支撐,體量較大。此外,A輪和未融資的互聯網金融公司對於該崗位的需求量也很大,這與政策管控、行業競爭壓力大且互聯網金融公司壞賬率頗高相關,通過大批量招聘數據分析師減少壞賬率、增加業務收入成為這些公司長期發展的必要條件。
⑤隨著工作經驗的變化,薪酬範圍的變化情況
如上面兩張圖,是通過SPSS繪製不同工作經驗時薪資分布的箱線圖,和北京、上海、深圳三城市不同工作經驗時薪資分布的箱線圖。
由第一張圖片使用所有相關數據,隨著工作經驗的增長,數據分析師的收入有著明顯的梯度式增長。同時,該崗位也是一個收入高低跨度較大的職位,工作經驗相同時,收入的高低有著明顯差異。但同時也能證明崗位的一個很有發展前景的崗位,這也激勵著我們需要不斷提升自己的工作技能和業務水平。
第二張圖,取該崗位人才需求量最高的三個城市——北京、上海、深圳,從圖上看,這三大城市的薪資分布情況和第一張圖中的全國的薪資總體分布趨勢是一致的。當工作經驗在1-3年、5-10年、經驗不限時,北京和深圳的薪資分布中位數都高於上海,且北京的薪資分布中位數最高。
取北京、上海,學歷為本科生的所有薪資數據的中位數,使用Excel構造如上「旋風圖」,由圖可知,當工作經驗在5年以下時,北京和上海的薪資不相上下。當工作經驗在大於5年後,北京的薪資明顯高於上海。
⑥數據分析師應當具備的素質和技能
使用Word Art詞雲工具提取職位招聘要求的內容關鍵詞,構造詞雲。
上圖展現了對於數據分析師的計算機技能要求,要求最多的工具是SQL和R,較多的是SAS和Python,要求SPSS、Excel、PPT、BI等的工具也很多。當然要求Hadoop、Spark、Hive、VBA等工具也很多,但主要出現於工作經驗3年以上的職位要求中。
由上圖來看一下互聯網金融行業對於數據分析師綜合素質的要求:
- 學歷:本科,部分要求211院校
- 專業:金融、計算機、統計學,理工科類
- 計算機技能:(前面已介紹)
- 其它:機器學習演算法(建模、數據挖掘)、對數據敏感、思維敏捷、抗壓能力強、細心、信息整理能力等
分析結論
- 互聯網金融行業,數據分析師這一崗位的需求主要集中在北上廣深杭。
- 該崗位對於學歷的要求不高,對於本科學歷的需求量遠遠高於碩士。
- 該崗位是一個偏於年輕化的崗位,招聘需求主要集中於1年-5年工作經驗。
- 隨著互聯網金融行業快速發展,有一定規模和獲得一定融資後的公司會大量招聘數據分析師。
- 數據分析師有著良好的發展前景,隨著工作經驗的增加,薪資收入會有很明顯的梯度上升。
- 對於該崗位,北京和深圳的薪資高於上海,其中北京的薪資最高。
- 數據分析師的技能要求排在前列的有:SQL、R、 SAS、Python、Excel、SPSS、PPT等。其中,SQL和一種統計軟體(R、SAS、Python等)是必備技能。
- 使用Hadoop和Spark進行海量數據的分散式處理框架是有一定工作經驗後的必備技能,也是很多公司招聘有一定工作經驗的數據分析師的必備要求。
- 數據分析師對於人的綜合素質有著高要求:對數據敏感、思維敏捷、抗壓能力強,細心,善於運用機器學習演算法進行數據挖掘。
思考與總結
此次對於數據分析師的分析過程是比較簡單的,僅僅對於數據分析師的一些招聘屬性進行簡單的統計描述。本次分析的數據集共430條記錄,如果能夠獲取更多的數據記錄,相信統計結果會更加詳細可靠。數據集的爬取時間是2018年2月3日,爬取的時間會造成部分數據量偏少(如:一年以下等),這對於統計結果肯定會有一定的影響,如果能夠一年時間內多次爬取相關數據並進行合併匯總去重,這樣的統計結果肯定會更有說服力。對於數據分析師的綜合素質的要求,詞雲圖並不能夠完整展現,還需要有邏輯思維強、責任心強、自學能力強、主動性強、有大局觀和商業判斷能力等。
推薦閱讀: