爬蟲告訴你, 互聯網數據行業有多賺錢【數據挖掘&機器學習篇】

08-13

來自專欄大數據分析挖掘45 人贊了文章

作者介紹：徐麟，目前就職於上海唯品會產品技術中心，哥大統計數據狗，從事數據挖掘&分析工作，喜歡用R&Python玩一些不一樣的數據
個人公眾號：數據森麟（ID:shujusenlin）,知乎同名:數據森麟專欄作者。

前言：

隨著互聯網大數據行業的日漸興盛，越來越多的人投身其中，也有很多的朋友對此有著濃厚的興趣，想要投身其中。從本期開始我們將分四期帶大家走進互聯網大數據行業，分別了解數據挖掘&機器學習、數據分析、演算法&深度學習、數據產品經理這四個不同的與大數據相關的職位。

數據來源：

我們未來四期的數據主要來源於拉勾網，目前比較火的招聘網站獵聘、boss直聘、拉勾都有比較多的互聯網職位介紹。我們基於以下幾點原因選擇拉勾：1.薪資大多有直接的範圍，較少為面議 2. 企業數量較全，基本上涵蓋了互聯網相關公司 3.url地址相對比較規整，方便進行批量爬取。數據展示頁面如下：

該部分使用Python中Selenium爬取，部分代碼如下：

while True:
try:
for j in range(15):
xpath = //*[@id="s_position_list"]/ul/li[+str(j+1)+]
a = driver.find_element_by_xpath(xpath)
job_desc.append(a.text)
job_code.append(a.find_element_by_class_name(position_link
).get_attribute(data-lg-tj-cid))

js="var q=document.documentElement.scrollTop=10000"
driver.execute_script(js)
driver.find_element_by_class_name(pager_next).click()
except:
break

薪資情況：

我們將從多個角度去了解大家所關注的薪資情況，首先看一下各個城市的機會多少與平均月薪，如下圖（氣泡大小表示職位數量，柱形圖高度表示平均月薪）：

可以看到，排名第八的武漢職位數量已經是北京的四十分之一了，排名靠後的城市職位數量小於20個。這一定程度體現了數據挖掘&機器學習職位在北上廣深杭的集中性，除了五大城市之外，成都、南京、武漢未來也有著無限潛力。

下面看一下不同的工作經驗所對應的職位數量與薪資情況：

可以看到拉勾網上大多的工作機會是針對於有工作經驗的求職者。3年、5年工作經驗也成為了兩個比較重要的門檻，薪資會有明顯的提示，這樣說明了企業對於經驗的看重

下面看一企業對於學歷的要求：

需要注意的是，拉勾網上的學歷要求為最低要求，實際工作中大家的平均學歷會遠高於圖上所顯示的。

我們來結合城市和經驗看一下不同城市工作經驗的提升對薪資的提升幅度：

北京在各個工作經驗層面的薪資均處於全國領先位置，這也表明了帝都互聯網中心的地位。在工作經驗5-10年的對比上，廣州的漲幅落後於其他幾大城市，有在廣州工作的朋友可以與我們分享下，這是否具有一定的現實性。

各大公司拉勾網提供平均月薪：

我們選取了在拉勾網上提供職位最多的十五家公司，BAT&TMD均在其中，也包括了搜狗、微博、網易這些知名互聯網公司。出人意料的是提供職位薪資最高的是新浪微博，眾所周知，一個企業內的實際平均薪資情況十分複雜，上述數據也只是其在拉勾網上放出職位的情況，僅供參考。

以上圖表我們使用R語言ggplot繪製，代碼如下（以公司薪資圖為例）：

ggplot(company_com,aes(x=reorder(company,-salary),y=salary,fill=as.character(rep(1:5,each=3))))+
geom_bar(stat=identity)+
geom_text(aes(label=round(salary,2),y= salary+1),size=5)+
theme_wsj()+
scale_fill_wsj()+
scale_color_wsj()+
ggtitle(各類公司拉勾網職位平均月薪(K))+
theme(axis.text.x = element_text(size=12),
axis.text.y = element_blank(),

plot.title = element_text(hjust=0.5,size=25),
legend.position=none,
panel.grid = element_blank(),
axis.title = element_blank(),
axis.text = element_text(face=bold,hjus=0.8,size=10,angle=15)
)

期望月薪計算：

我們用線性回歸模型，簡易地幫助大家計算一下所可以期待的薪資情況（數據為月薪，單位為K），我們僅選取了經驗、城市、學歷三個因素，並沒有考慮交互項、高次項等因素，結果僅供參考，實際情況要複雜很多：

所需技能&福利：

想要得到不錯的年薪，除了上述一些硬體條件，個人所掌握的實際技能實際上會起到更加重要的作用，我們就來看一下入職數據挖掘&機器學習所需掌握的技能：

順利入職之後，我們又可以得到什麼樣的福利呢，可以看一下下圖：

我們可以看到除了傳統的福利，技術氛圍好、大牛雲集、海量數據也成為了數據挖掘&機器學習職位用來吸引求職者的重要籌碼。

最後祝願目前已經從事和有志於從事數據挖掘工作的同學都能有一份滿意的工作。未來幾周會陸續更新【數據分析篇】【人工智慧&深度學習篇】【數據產品經理篇】，敬請期待！