什麼水平?使用 R 語言從拉勾網看數據挖掘崗位現狀

因為畢業後想從事數據挖掘相關的職業,但對該行業的需求不太了解,網上資料太多查看花時間且抓不住重點,所以爬取了拉勾網上 900 多條相關的崗位共計 30 萬字的職位描述的數據進行了相關的分析。分析結果主要想回答下面兩個問題:

  1. 目前數據挖掘崗位的現狀 ?
  2. 如果要從事數據挖掘行業,需要具備哪些技能 ?

分析時間:2017 年 2 月

工具:RStudio, Number, R (爬取和分析使用的都是 R )

分析的代碼和爬取到的數據:github.com/edvardHua/Jo

數據挖掘崗位現狀

分兩塊描述,第一塊是基本的統計數據,包括數據挖掘在那個城市需求最旺盛,對應聘人員的學歷要求,行業的分布和公司的財務狀況。第二塊圍繞著薪酬做相關性的分析,主要是工作資歷與薪酬之間的關係,以及行業與薪酬之間的關係。

首先可以看到大部分數據挖掘崗位都分布在北京,上海,深圳和杭州,北京該崗位需求相當旺盛,差不多佔據了一半的職位數量。從左邊的餅圖可以看出,大部分數據挖掘崗位對應聘者的學歷要求為至少是本科以上。

左邊的條形圖顯示大部分的數據挖掘崗位都分布在移動互聯網領域,另外,右邊的餅圖可以看出,上市公司和成長型 B 輪及 D 輪以上的公司對數據挖掘崗位的需求最大。

從左邊這張圖可以看出,對於有 1-3 年經驗的應聘者,企業的普遍工資在 16-20 K 左右的水平,而對於 3-5 年工作經驗的應聘者,則普遍的工資在 21-25 K,另外有意思的是,許多職位對工作經驗沒有要求,但是也願意給出不錯的薪酬。從右邊的圖可以看出,移動互聯網領域職位數量多且工資相對較高,若想找份高薪的工作,在移動互聯網行業做數據挖掘是個不錯的選擇。

從事數據挖掘行業,需要具備哪些技能組合

將爬取到的全部職位描述匯總在一起後,總共有差不多 30 萬字的職位描述。這裡首先使用 jiebaR 中文分詞庫對文本進行分析和挖掘。在挖掘之前,首先需要簡歷自己的詞料庫,我使用的詞料庫是從網上搜查得到,感興趣可點擊此處查詢。

首先使用 jiebaR 庫對 30 萬字的職業描述進行關鍵字(TF_IDF 演算法)提取,結果如下:

"數據挖掘" "演算法" "數據" "經驗" "熟悉" "機器學習" "優先"

關鍵字高度概括了企業對應聘者的需求,拿這些詞造句的話,應該可以理解為:

「我們需要找一位熟悉數據結構和機器挖掘演算法的人。另外,具備經驗者優先。」

隨後,再根據自己收集的語料庫進行詞頻統計,做成雲圖,結果如下:

從詞雲和術語出現次數可以看出,想要從事數據挖掘,除了要熟悉基本的編程語言和框架外( Python,Hadoop,Java,Spark,R ),統計學也被很多企業所提及。

項目結構

地址:github.com/edvardHua/Jo

使用到的 R 包:ggplot2, jiebaR, wordcloud2

項目結構:

├── data

│├── position- 1:63 拉勾網的原始數據,為 json 格式

├── cache

│ ├── position_after_cleaning.csv 預處理後的數據,直接讀取既可使用

│ ├── ...

├── corpus

│ ├── collected.dict.utf8 數據挖掘領域相關的語料庫

│ ├── ...

├── graphs

│ ├── ...

├── src

│ ├── curl.R 爬蟲

│ ├── clean.R 數據清洗

│ ├── func.R 公共函數

│ └── statistics.R 統計結果可視化

│ ├── mining.R 關鍵字提取和詞頻統計

└── tests

└── test.R

歡迎關注我們的微信公眾號「人工智慧LeadAI」,DI:atleadai

推薦閱讀:

PDNS數據驅動DGA分析
數據挖掘|K-means聚類
巡洋艦AI時代招你遠征
運營汪別委屈了,教你如何打一場漂亮的「翻身仗」

TAG:R编程语言 | 数据挖掘 |