當我們從事數據崗位時我們需要會什麼
1 概述
厚積薄發,有的放矢。
當我們準備向數據領域進發時,我們需要積累什麼。為了搞清楚這個問題,爬取了拉勾網上關於『數據分析』和『數據挖掘』的相關職位 (上海),從老闆們的角度審視一下數據領域。看看老闆們都需要具有什麼技能點的人,從而可以更加針對性的學習。
除了基礎的數字外,這篇涉及了部分文本處理。主要是分詞、關鍵詞提取和詞雲顯示。為了能夠做到心中有底,知道要學些什麼,把這篇拉勾網數據分析放在了最前面。建議有了相關基礎再來練手該篇,數據和程序整理後會上傳至 GitHub。
2 信息抓取
抓取了 2018 年 1 月 9 號的拉勾網數據,工作地點限制為上海,爬取的職位為『數據分析』和『數據挖掘』,共 800 多條。爬取的信息為:工資、工作經驗要求和學歷要求、公司發展階段、職位誘惑、職位描述等。
3 數據分析
3.1 職位描述
重要的先說,職位描述里有著任職要求和崗位職責,如圖 1。裡面涉及的信息是這次關注的重點。因為從職位描述,能夠知道金主需要具備什麼技能的人,能夠知道將來要做什麼類型的工作。了解了這些,才能夠做到有的放矢。
首先,需要將工作內容和職位要求劃分開來。根據工作內容,可以知道將來要做的事是什麼。根據職位要求,可以有針對地進行學習。由於拉勾網上職位描述的內容並不是很有規律,而且每家填寫的關鍵詞也有不一樣。工作內容和職位要求的劃分需要採取特殊手段。通過對多個職位描述的觀察,發現大部分都有『要求』這兩個字,而且這兩個字基本劃分開了上述兩部分。但是,文本中可能存在多個『要求』,容易劃分錯誤。通過觀察,為了更有條理化,具體信息的前邊一般都有序號,而『職位要求』這一行是基本沒有數字的。所以,最終確定的界限就是:有『要求』但是沒有數字的行。
初步來看,分離的效果還可以。
聚合所有職位描述文本,並對其分詞和詞性確定。由於技能一般是名詞和英語,選出分詞結果為名詞和英語的部分,並去掉一些無關的詞,形成的『職位要求』的詞雲如圖 2。
可以看到,關鍵的技能點有:
- SQL
- Python
- 機器學習
- 建模和演算法等
所以,從事數據分析領域工作首先應該學習的是 SQL 和 Python,然後去學習機器學習方法。根據上述的三個技能,能夠從事數據的建模和分析基本就滿足職位要求。
對『工作內容』進行同樣的處理,得到的詞雲如圖 3。
從圖 3 中得出,工作的內容應該是對數據進行建模和演算法實現,挖掘其中的信息,提供分析報告和報表,給出相關指標和建議,最終形成某些產品或解決產品中的某些問題。
3.2 薪酬水平
上海數據分析類工作的錢途如何呢?圖 4 為爬取數據的薪酬範圍的分布。
其中,給出 15k-25k 的公司最多,總的來說,大部分金主給出的工資在 10k 以上。
3.3 學歷要求
數據分析類是門檻高的崗位嗎?看一下對學歷的要求。大部分都要求本科以上。
3.4 工作經驗要求
總的來說,來工作經驗的要求並不高,大部分在 1-3 年,部分也不限。
3.5 公司發展階段
剛才查看的都是跟工作相關的信息,現在查看一下公司的發展階段,需要數據分析類的公司基本在什麼發展階段呢?
有數據分析需求的公司大部分為成熟公司,不需要融資或已上市。
3.6 公司優勢
看了這麼多數據相關的內容之後,重新回到文字。在拉勾網的頁面,每個公司會貼一些公司優勢的相關詞語,吸引各路人員。將這些詞語聚合得到的詞雲如圖 8。
招聘方認為求職者最關注的為『福利好』、『帶薪年假』、『彈性工作』、『五險一金』。作為視力優秀的青年,默默的看到了『彈性工作』旁邊的『美女多』,看來公司為了吸引好漢們的加盟也是費盡了心思。
3.7 工資 vs ?
對於比較關心的錢途問題,工資和什麼有關呢?拉勾網給出的薪酬為一個範圍,採用該範圍的均值作為工資,查看其與其他因素的關係。這裡查看了工資和工作經驗年限要求以及公司發展階段的關係,看看是不是工作經驗要求越高工資越高呢?是不是初創公司給出的薪酬更吸引人呢?
從圖中可以看出,工資和經驗有關係,和公司發展階段基本沒啥關係,也就不需要進一步進行相關性分析了。
推薦閱讀: