什麼水平?使用 R 語言從拉勾網看數據挖掘崗位現狀
因為畢業後想從事數據挖掘相關的職業,但對該行業的需求不太了解,網上資料太多查看花時間且抓不住重點,所以爬取了拉勾網上 900 多條相關的崗位共計 30 萬字的職位描述的數據進行了相關的分析。分析結果主要想回答下面兩個問題:
- 目前數據挖掘崗位的現狀 ?
- 如果要從事數據挖掘行業,需要具備哪些技能 ?
分析時間:2017 年 2 月
工具:RStudio, Number, R (爬取和分析使用的都是 R )
分析的代碼和爬取到的數據:https://github.com/edvardHua/JobRequirementAnalysis
數據挖掘崗位現狀
分兩塊描述,第一塊是基本的統計數據,包括數據挖掘在那個城市需求最旺盛,對應聘人員的學歷要求,行業的分布和公司的財務狀況。第二塊圍繞著薪酬做相關性的分析,主要是工作資歷與薪酬之間的關係,以及行業與薪酬之間的關係。
首先可以看到大部分數據挖掘崗位都分布在北京,上海,深圳和杭州,北京該崗位需求相當旺盛,差不多佔據了一半的職位數量。從左邊的餅圖可以看出,大部分數據挖掘崗位對應聘者的學歷要求為至少是本科以上。
左邊的條形圖顯示大部分的數據挖掘崗位都分布在移動互聯網領域,另外,右邊的餅圖可以看出,上市公司和成長型 B 輪及 D 輪以上的公司對數據挖掘崗位的需求最大。
從左邊這張圖可以看出,對於有 1-3 年經驗的應聘者,企業的普遍工資在 16-20 K 左右的水平,而對於 3-5 年工作經驗的應聘者,則普遍的工資在 21-25 K,另外有意思的是,許多職位對工作經驗沒有要求,但是也願意給出不錯的薪酬。從右邊的圖可以看出,移動互聯網領域職位數量多且工資相對較高,若想找份高薪的工作,在移動互聯網行業做數據挖掘是個不錯的選擇。
從事數據挖掘行業,需要具備哪些技能組合
將爬取到的全部職位描述匯總在一起後,總共有差不多 30 萬字的職位描述。這裡首先使用 jiebaR 中文分詞庫對文本進行分析和挖掘。在挖掘之前,首先需要簡歷自己的詞料庫,我使用的詞料庫是從網上搜查得到,感興趣可點擊此處查詢。
首先使用 jiebaR 庫對 30 萬字的職業描述進行關鍵字(TF_IDF 演算法)提取,結果如下:
"數據挖掘" "演算法" "數據" "經驗" "熟悉" "機器學習" "優先"
關鍵字高度概括了企業對應聘者的需求,拿這些詞造句的話,應該可以理解為:
「我們需要找一位熟悉數據結構和機器挖掘演算法的人。另外,具備經驗者優先。」
隨後,再根據自己收集的語料庫進行詞頻統計,做成雲圖,結果如下:
從詞雲和術語出現次數可以看出,想要從事數據挖掘,除了要熟悉基本的編程語言和框架外( Python,Hadoop,Java,Spark,R ),統計學也被很多企業所提及。
項目結構
地址:https://github.com/edvardHua/JobRequirementAnalysis
使用到的 R 包:ggplot2, jiebaR, wordcloud2
項目結構:
├── data
│├── position- 1:63 拉勾網的原始數據,為 json 格式 ├── cache│ ├── position_after_cleaning.csv 預處理後的數據,直接讀取既可使用
│ ├── ... ├── corpus │ ├── collected.dict.utf8 數據挖掘領域相關的語料庫 │ ├── ... ├── graphs │ ├── ... ├── src │ ├── curl.R 爬蟲 │ ├── clean.R 數據清洗│ ├── func.R 公共函數
│ └── statistics.R 統計結果可視化 │ ├── mining.R 關鍵字提取和詞頻統計 └── tests └── test.R歡迎關注我們的微信公眾號「人工智慧LeadAI」,DI:atleadai
推薦閱讀:
※PDNS數據驅動DGA分析
※數據挖掘|K-means聚類
※巡洋艦AI時代招你遠征
※運營汪別委屈了,教你如何打一場漂亮的「翻身仗」