當我們從事數據崗位時我們需要會什麼

1 概述

厚積薄發,有的放矢。

當我們準備向數據領域進發時,我們需要積累什麼。為了搞清楚這個問題,爬取了拉勾網上關於『數據分析』和『數據挖掘』的相關職位 (上海),從老闆們的角度審視一下數據領域。看看老闆們都需要具有什麼技能點的人,從而可以更加針對性的學習。

除了基礎的數字外,這篇涉及了部分文本處理。主要是分詞、關鍵詞提取和詞雲顯示。為了能夠做到心中有底,知道要學些什麼,把這篇拉勾網數據分析放在了最前面。建議有了相關基礎再來練手該篇,數據和程序整理後會上傳至 GitHub。

2 信息抓取

抓取了 2018 年 1 月 9 號的拉勾網數據,工作地點限制為上海,爬取的職位為『數據分析』和『數據挖掘』,共 800 多條。爬取的信息為:工資、工作經驗要求和學歷要求、公司發展階段、職位誘惑、職位描述等。

3 數據分析

3.1 職位描述

重要的先說,職位描述里有著任職要求和崗位職責,如圖 1。裡面涉及的信息是這次關注的重點。因為從職位描述,能夠知道金主需要具備什麼技能的人,能夠知道將來要做什麼類型的工作。了解了這些,才能夠做到有的放矢。

圖1. 職業描述

首先,需要將工作內容和職位要求劃分開來。根據工作內容,可以知道將來要做的事是什麼。根據職位要求,可以有針對地進行學習。由於拉勾網上職位描述的內容並不是很有規律,而且每家填寫的關鍵詞也有不一樣。工作內容和職位要求的劃分需要採取特殊手段。通過對多個職位描述的觀察,發現大部分都有『要求』這兩個字,而且這兩個字基本劃分開了上述兩部分。但是,文本中可能存在多個『要求』,容易劃分錯誤。通過觀察,為了更有條理化,具體信息的前邊一般都有序號,而『職位要求』這一行是基本沒有數字的。所以,最終確定的界限就是:有『要求』但是沒有數字的行。

初步來看,分離的效果還可以。

聚合所有職位描述文本,並對其分詞和詞性確定。由於技能一般是名詞和英語,選出分詞結果為名詞和英語的部分,並去掉一些無關的詞,形成的『職位要求』的詞雲如圖 2。

圖2. 職業要求詞雲

可以看到,關鍵的技能點有:

  • SQL
  • Python
  • 機器學習
  • 建模和演算法等

所以,從事數據分析領域工作首先應該學習的是 SQL 和 Python,然後去學習機器學習方法。根據上述的三個技能,能夠從事數據的建模和分析基本就滿足職位要求。

對『工作內容』進行同樣的處理,得到的詞雲如圖 3。

圖3. 工作內容詞雲

從圖 3 中得出,工作的內容應該是對數據進行建模和演算法實現,挖掘其中的信息,提供分析報告和報表,給出相關指標和建議,最終形成某些產品或解決產品中的某些問題。

3.2 薪酬水平

上海數據分析類工作的錢途如何呢?圖 4 為爬取數據的薪酬範圍的分布。

圖4. 薪酬水平分布

其中,給出 15k-25k 的公司最多,總的來說,大部分金主給出的工資在 10k 以上。

3.3 學歷要求

數據分析類是門檻高的崗位嗎?看一下對學歷的要求。大部分都要求本科以上。

圖5. 學歷要求

3.4 工作經驗要求

總的來說,來工作經驗的要求並不高,大部分在 1-3 年,部分也不限。

圖6. 工作經驗要求

3.5 公司發展階段

剛才查看的都是跟工作相關的信息,現在查看一下公司的發展階段,需要數據分析類的公司基本在什麼發展階段呢?

圖7. 公司發展階段

有數據分析需求的公司大部分為成熟公司,不需要融資或已上市。

3.6 公司優勢

看了這麼多數據相關的內容之後,重新回到文字。在拉勾網的頁面,每個公司會貼一些公司優勢的相關詞語,吸引各路人員。將這些詞語聚合得到的詞雲如圖 8。

圖8. 公司優勢詞雲

招聘方認為求職者最關注的為『福利好』、『帶薪年假』、『彈性工作』、『五險一金』。作為視力優秀的青年,默默的看到了『彈性工作』旁邊的『美女多』,看來公司為了吸引好漢們的加盟也是費盡了心思。

3.7 工資 vs ?

對於比較關心的錢途問題,工資和什麼有關呢?拉勾網給出的薪酬為一個範圍,採用該範圍的均值作為工資,查看其與其他因素的關係。這裡查看了工資和工作經驗年限要求以及公司發展階段的關係,看看是不是工作經驗要求越高工資越高呢?是不是初創公司給出的薪酬更吸引人呢?

圖9. 工資與工作經驗要求

圖10. 工資與公司發展階段

從圖中可以看出,工資和經驗有關係,和公司發展階段基本沒啥關係,也就不需要進一步進行相關性分析了。


推薦閱讀:

數據挖掘和網路爬蟲有什麼關聯區別?

TAG:數據分析 | 數據挖掘 | 拉勾網 |