爬取拉勾網,深入了解互聯網數據運營
全文閱讀路線:
- 分析目的
- 數據採集
- 數據整理
- 數據分析
- 分析結論
- 思考與總結
1.分析目的
通過分析拉勾網數據運營崗位的招聘信息,對數據運營崗位進行深入了解。
具體來說,主要有以下目的:
① 數據運營崗位需求的地域性分布;
② 該崗位對學歷的需求情況;③ 該崗位對工作經驗的需求情況;④ 不同融資階段的公司對該崗位的需求情況;
⑤ 隨著工作經驗的變化,薪酬範圍的變化情況;⑥ 從招聘要求來看,數據運營應當具備哪些素質和技能。
工具:
八爪魚採集器、 Excel、Tableau、SPSS、Word Art詞雲
2. 數據採集
此次項目的數據集來源於拉勾網,是通過八爪魚這一網路爬蟲軟體爬取拉勾網2018年1月25日數據運營崗位信息。由於拉勾網本身的限制,僅能爬取30頁的崗位信息,外加八爪魚默認自動過濾重複信息,最終一共爬取378條有效無重複記錄。
八爪魚採集器爬取數據過程如下:
?下載安裝八爪魚採集器
?創建任務,選擇列表及詳情?重命名任務名稱?輸入採集網址?設置翻頁?設置詳情頁鏈接
?點擊需要採集的數據信息。?開始採集?數據導出為excel
本次爬取拉勾網,主要獲得了以下信息:
崗位名稱、月薪、城市、經驗、學歷、公司名稱、發展階段、行業領域、職位描述
3.數據整理
●獲取最低月薪與最高月薪:
min_salary【C2】=LEFT(LOWER(B2),FIND("k",LOWER(B2))-1)
max_salary【D2】=LEFT(MID(LOWER(B2),FIND("-",B2)+1,6),FIND("k",MID(LOWER(B2),FIND("-",B2)+1,6))-1)
也可使用search函數,search函數不區分大小寫。
●整理城市信息:
city【F2】=MID(E2,FIND("/",E2)+1,3)
●整理經驗信息:
experience 【H2】=MID(G2,SEARCH("經驗",G2)+2,FIND("/",G2)-FIND("經驗",G2)-2)
●整理學歷信息:
edu【J2】=IF(ISERROR(LEFT(I2,FIND("及",I2)-1)),LEFT(I2,FIND("/",I2)-1),LEFT(I2,FIND("及",I2)-1))
●整理髮展階段信息:
stage【O2】=IF(ISERROR(LEFT(N2,FIND("及",N2)-1)),LEFT(N2,FIND("發展",N2)-1),LEFT(N2,FIND("及",N2)-1))
●整理職位描述信息:
describe 【Q2】=TRIM(RIGHT(P2,LEN(P2)-(FIND("職位描述:",P2)+5)))
4.數據分析
① 數據運營崗位需求的地域性分布
在該數據集中共有21個城市有互聯網行業數據運營的人才需求,其中有近50%的需求量在北京。排名前五的城市是:北京、上海、深圳、杭州、廣州。
② 該崗位對學歷的需求情況
使用countif函數計算各學歷的需求量:
count_edu【K2】=COUNTIF($H$2:$H$379,$J2)
很明顯,數據運營崗位對於本科學歷的需求量最高,以80%以上的需求量佔比遙遙領先於大專和碩士。
③ 該崗位對工作經驗的需求情況
同樣使用countif函數計算數據運營崗位在各工作經驗時間段的需求量,然後構建圓環圖。
對於數據運營崗位,各工作經驗階段的需求量排名如下:1-3年、3-5年、經驗不限、5-10年、1年以下、10年以上。其中,工作經驗在1-3年的需求量佔比約47%,工作經驗在3-5年的需求量略低於1-3年,經驗不限和5-10年也有近20%的佔比。工作經驗在1年以下的需求量偏少,這也可能涉及此數據集的爬取時間在1月份,此時校招幾乎結束,此數據集對於應屆畢業生和一年以下工作經驗等需求較少,對統計分析的結果會有一定影響。
④ 不同融資階段的公司對該崗位的需求情況
對於數據運營崗位需求量最高的是不需要融資的公司,此外,融資階段在A輪、B輪、C輪、D輪、上市的公司也有較高的需求量且需求量相差不大。天使輪的公司對於該崗位的需求量最少。
我們對原數據進行篩選,選取學歷需求最高的本科,工作經驗需求最高的1-3年與3-5年,構造如下柱形圖:
此柱形圖的整體分布趨勢與上麵條形圖的整體分布趨勢相差不大,都是:不需要融資的公司對於數據運營崗位的需求量最高,天使輪的公司對於數據運營崗位的需求量最低,融資階段在A輪、B輪、C輪、D輪、上市的公司有較高的需求量且需求量相差不大。
⑤隨著工作經驗的增加,薪酬範圍的變化情況
通過篩選選取學歷為本科的所有數據,利用excel構建各工作經驗階段薪酬分布的箱線圖。因為工作經驗10年以上的數據只有一例,暫不將其納入考慮範圍。隨著工作經驗的增長,數據運營的薪酬有著明顯的梯度式增長。同時,數據運營崗位也是一個收入高低跨度較大的職位,工作經驗相同時,收入的高低有著明顯差異。但同時也能證明崗位的一個很有發展前景的崗位,激勵著我們需要不斷提升自身工作技能和業務水平。
在第一張箱線圖數據的基礎上,選取取該崗位人才需求量最高的三個城市——北京、上海、深圳——的數據,利用SPSS構建箱線圖。從圖上看,這三大城市的薪酬分布情況和第一張圖中的薪資總體分布趨勢是一致的。當工作經驗在1-3年時,北京、上海的薪酬中位數相近且高於深圳;當工作經驗在1年以下時,由於北京只有一條數據且薪酬偏高,所以箱線圖的數據偏高;當工作經驗在3-5年時,北京、上海、深圳的薪酬中位數相近,但北京薪酬的上四分位數和下四分位數明顯高於上海和深圳;當工作經驗在5-10年時,深圳數據缺失,北京的薪酬中位數高於上海。
取北京、上海,學歷為本科生的所有薪酬數據,去除±3σ之外的極端值(如:=IF(A1="","",IF(ABS(A1-AVERAGE($A$1:$A$16))>3*STDEVP($A$1:$A$16),"",A1))),對清洗後的數據去平均值,然後使用Excel構造如上「旋風圖」。
由圖可知,無論有多少年工作經驗,數據運營崗位在北京的薪酬都高於上海。由於1年以下的數據偏少(北京只有一條記錄,上海有兩條記錄),所以圖中工作經驗在一年以下的數據參考價值較低。
⑥ 數據運營應當具備的素質和技能
使用Word Art詞雲工具對數據運營崗位的職位描述信息提取內容關鍵詞,構造詞雲。
觀察詞雲圖,可知:
- 學歷:對本科學歷的需求最高,部分要求211院校。
- 專業:統計學、數學、計算機,理工科優先
- 計算機技能:Excel、SQL和PPT是基礎,需要掌握一種或幾種統計分析軟體(如SPSS、R、SAS、Python)。也有數據運營崗位有對Hadoop、Spark的要求,這與對數據分析師的技能要求有相近之處。
- 素質要求:抗壓能力強,責任心強、溝通能力強、邏輯思維能力強、學習能力強、細心、積極主動、認真負責、執行力強等。
5.分析結論
- 互聯網行業,數據運營崗位的需求主要集中在北上廣深杭。
- 該崗位對於學歷的要求主要集中於本科,對於碩士和大專學歷的需求偏少。。
- 數據運營崗位是一個偏於年輕化的崗位,招聘需求主要集中於1年-5年工作經驗。
- 對於數據運營崗位,不需要融資的公司的需求量最高,天使輪的公司的需求量最低,融資階段在A輪、B輪、C輪、D輪、上市的公司也有較高的需求量且需求量相差不大。
- 數據分析師有著良好的發展前景,隨著工作經驗的增加,薪資收入會有很明顯的梯度式增長。
- 1-3年工作經驗時,北京和上海的薪酬中位數相近且都高於深圳;3-5年工作經驗時,北京、上海、深圳的薪酬中位數相近;5-10年工作經驗時,北京的薪酬中位數明顯高於上海。
- 對於本科生,無論有多少年工作經驗,數據運營崗位在北京的薪酬均值都高於上海。
- 數據運營崗位的技能要求排在前列的有:Excel、SQL、R、PPT等。其中,Excel和SQL是必備技能。
- 熟練掌握一種或幾種統計分析軟體(如SPSS、R、Python、SAS)是數據運營崗位人員增進業務能力的必經之路。
- 數據運營崗位對於人的綜合素質有著高要求:抗壓能力強,責任心強、溝通能力強、邏輯思維能力強、學習能力強、細心、積極主動、認真負責、執行力強等。
6.思考與總結
此次對於數據運營崗位的分析過程是比較簡單的,僅僅對於數據運營崗位的部分招聘信息進行簡單的統計描述。本次分析的數據集共378條記錄,如果能夠獲取更多的數據記錄,相信統計結果會更加詳細可靠。數據集的爬取時間是2018年1月25日,爬取的時間會造成部分數據量偏少(如:一年以下等),這對於統計結果肯定會有一定的影響,如果能夠一年時間內多次爬取相關數據並進行合併匯總去重,這樣的統計結果肯定會更有說服力。對於數據運營人員的綜合素質的要求,詞雲圖並不能夠完整展現,還需要有思維敏捷、對數據敏感、信息整理能力、樂於知識分享與交流、有大局觀和商業判斷能力等。
附:個人總結的數據運營/數據分析相關知識思維導圖
數據運營全匯總
推薦閱讀:
TAG:數據化運營 |