什麼水平？使用 R 語言從拉勾網看數據挖掘崗位現狀

01-28

因為畢業後想從事數據挖掘相關的職業，但對該行業的需求不太了解，網上資料太多查看花時間且抓不住重點，所以爬取了拉勾網上 900 多條相關的崗位共計 30 萬字的職位描述的數據進行了相關的分析。分析結果主要想回答下面兩個問題：

目前數據挖掘崗位的現狀？
如果要從事數據挖掘行業，需要具備哪些技能？

分析時間：2017 年 2 月

工具：RStudio, Number, R (爬取和分析使用的都是 R )

分析的代碼和爬取到的數據：https://github.com/edvardHua/JobRequirementAnalysis

數據挖掘崗位現狀

分兩塊描述，第一塊是基本的統計數據，包括數據挖掘在那個城市需求最旺盛，對應聘人員的學歷要求，行業的分布和公司的財務狀況。第二塊圍繞著薪酬做相關性的分析，主要是工作資歷與薪酬之間的關係，以及行業與薪酬之間的關係。

首先可以看到大部分數據挖掘崗位都分布在北京，上海，深圳和杭州，北京該崗位需求相當旺盛，差不多佔據了一半的職位數量。從左邊的餅圖可以看出，大部分數據挖掘崗位對應聘者的學歷要求為至少是本科以上。

左邊的條形圖顯示大部分的數據挖掘崗位都分布在移動互聯網領域，另外，右邊的餅圖可以看出，上市公司和成長型 B 輪及 D 輪以上的公司對數據挖掘崗位的需求最大。

從左邊這張圖可以看出，對於有 1-3 年經驗的應聘者，企業的普遍工資在 16-20 K 左右的水平，而對於 3-5 年工作經驗的應聘者，則普遍的工資在 21-25 K，另外有意思的是，許多職位對工作經驗沒有要求，但是也願意給出不錯的薪酬。從右邊的圖可以看出，移動互聯網領域職位數量多且工資相對較高，若想找份高薪的工作，在移動互聯網行業做數據挖掘是個不錯的選擇。

從事數據挖掘行業，需要具備哪些技能組合

將爬取到的全部職位描述匯總在一起後，總共有差不多 30 萬字的職位描述。這裡首先使用 jiebaR 中文分詞庫對文本進行分析和挖掘。在挖掘之前，首先需要簡歷自己的詞料庫，我使用的詞料庫是從網上搜查得到，感興趣可點擊此處查詢。

首先使用 jiebaR 庫對 30 萬字的職業描述進行關鍵字（TF_IDF 演算法）提取，結果如下：

"數據挖掘" "演算法" "數據" "經驗" "熟悉" "機器學習" "優先"

關鍵字高度概括了企業對應聘者的需求，拿這些詞造句的話，應該可以理解為：

「我們需要找一位熟悉數據結構和機器挖掘演算法的人。另外，具備經驗者優先。」

隨後，再根據自己收集的語料庫進行詞頻統計，做成雲圖，結果如下：

從詞雲和術語出現次數可以看出，想要從事數據挖掘，除了要熟悉基本的編程語言和框架外（ Python，Hadoop，Java，Spark，R ），統計學也被很多企業所提及。

項目結構

地址：https://github.com/edvardHua/JobRequirementAnalysis

使用到的 R 包：ggplot2, jiebaR, wordcloud2

項目結構：

├── data

│├── position- 1:63 拉勾網的原始數據，為 json 格式

├── cache

│ ├── position_after_cleaning.csv 預處理後的數據，直接讀取既可使用

│ ├── ...

├── corpus

│ ├── collected.dict.utf8 數據挖掘領域相關的語料庫

│ ├── ...

├── graphs

│ ├── ...

├── src

│ ├── curl.R 爬蟲

│ ├── clean.R 數據清洗

│ ├── func.R 公共函數

│ └── statistics.R 統計結果可視化

│ ├── mining.R 關鍵字提取和詞頻統計

└── tests

└── test.R

歡迎關注我們的微信公眾號「人工智慧LeadAI」，DI：atleadai