如何从拉勾网往里面来看互联网企业里面的数据挖掘现状如何?


自问自答的问题,缘起是因为数据挖掘入行不久,一直上拉勾网看各种公司的招聘JD,人工看一方面是时间很消耗,更严重的是抓不住重点,最近刚好入手python爬虫,试图简化这部分工作。另一方面学习爬虫之后,发现自己整天上网手动翻网页找信息这个动作很low,所以花了两天的时间连爬取带写文档。文档中同时附上github代码,各位想上手python的童鞋可以下载玩一下,(自知代码粗浅,大牛求放过~)

-----------------------------------------------------我是分割线---------------------------------------------------

工具:windows7,python3.4,IDE PyCharm 4.5

Python代码:

抓取 https://github.com/lichald/python/blob/master/python34/spider

分词https://github.com/lichald/python/blob/master/python34/wordcut

样本规模,:拉勾网20151020根据“数据挖掘”关键字可以搜索到的Jobs。工作数量450个,招聘公司318家,分布在21个城市。工作数量最多的前五名分别为北京、上海、深圳、广州、杭州(排名分先后),占工作总数的88%,基于二八法则,取这五个城市的样本作为分析基础,其他城市暂不考虑。

1.数据挖掘在哪个城市需求更加旺盛?

从总值上看,北京在数据挖掘岗位open的职位数量和公司数量上占据绝对优势,甚至超过后面4个城市的数值加和;仅就北京和上海相比,公司数量是3倍,职位数量是4倍。从公司平均招聘人数上看,北京也领先于其他城市。即使排除拉勾网base在北京中关村地利优势和3W咖啡的线下优势,北京的数值依然是遥遥领先。

2.公司如何定价员工的工作资历?

从主流数量上看,工作经历在1-5年的现在需求最旺盛,且大多数公司均会给到11-25K的价位。且对于11-15K、16-20K、21-25K三个细分档次的价位,用人单位对于1-3年工作经验的人11-15K是主流价码,优秀的人可以提升至16-20K,更优秀的再提升至21-25K;用人单位对于3-5年工作经验的人21-25K是主流价码,有经验但能力欠缺的降至16-20K,再弱一些的就降至11-15K。

还有一个非常有意思的现象是,有相当一部分企业对于“经验不限”的情况大多数也愿意给出11-15K和21-25K的价位,说明在互联网领域仍有企业是看重能力而不是资历,对于经验有相当的自由度。另外对于5-10年的人员数量非常低,排除专业猎头分的蛋糕之外,也可能说明这个行业的专家非常少,或者是企业的数据挖掘需求还远没有达到需要专家的级别。这两点结合来看,专家权威效应不明显,企业看重能力而非资历,对于这个行业的新人是利好的消息。

请注意,企业对于1年以下经验的人招聘数量和薪资认可方面都是非常低的,说明新人前1-2年先不着急跳槽,好好打好基本功,迎接之后的量质转换!

3.高薪资都存在哪些高大上的行业?

数据声明:在拉勾网上发布职位的公司一般都会贴上两个以上的标签,本文将对这些标签重复计算。例如宜信公司标签是&<移动互联网·金融&>,则在这两个领域分别会计数。图中移动互联网的绝对值非常高,说明移动互联网是一种主流的趋势。

移动互联网的主流薪资认可是11-25K范围,且能够容纳的人员数量非常多,说明该行业不差钱。数据服务是这行里面的默默无闻的耕耘者,有很多新兴企业,提供数据服务,也是通过高新来吸引人才。电商、O2O、文化(主要是视频)、广告、金融几个行业对数据挖掘人才需求的数量和质量相差无几。如果希望从事一份体面的数据挖掘工作,可以考虑从这些行业中来找。

4.公司处于何种阶段会需要数据挖掘?

融到钱的公司(途径包括各种轮和上市)对于数据挖掘的需求明显高于其他,早在天使轮就有体现。就成功融资的这些企业来讲,11-15K的人在AB轮时达到顶峰,说明这阶段应该是数据挖掘部门急剧膨胀的阶段,需要比较多的初级数据挖掘人员;21-25K的人员在ABCD和上市之后的需求保持持平,说明对于有能力的资深人士,需求是一直存在的,而且可能满足要求的人员较少,公司之间的流动性比较高,招聘需求一直稳定存在。

平均收入是根据人数加权得出,从中可以看出,“成功融资”、“未融资”、“不需要融资”呈依次递减的水平,在融资领域内,平均收入水平依据成熟度而显示逐步上升。

如果你是希望通过跳槽来获取更高的收入11-20K,不考虑期权的因素下,成熟度高的已成功融资、如CD轮或者上市的公司是最理想的选择,这些公司总体平均收入比较高,未来有进一步上升的潜力;如果觉得竞争太激烈,可以退而求其次,将目标放在AB轮,这些公司对此档人员的需求最高,但平均收入不一定高。(但事情一体两面,如果你选择时机得当,AB轮获得股权期权,将来成功套现,也将是一笔不小的收入)。

5.企业发展到何种规模需要数据挖掘?

对于11-15K的等级,在企业发展阶段呈现先上升后下降的趋势,其中150-500人是需求的顶峰;对于16-25K的人员,企业发展阶段是持续上升的需求,其中在50-500人阶段呈现出一个小高峰。可以理解企业在发展到150-500人之前,15K以下的数据挖掘即可满足需要,但在之后数据量的膨胀导致数据的价值陡增,对于21K以上的中高级人才产生巨大的渴求。

从人员加权平均收入来看,随着规模的增长是在不断上升的,企业的发展越大,数据挖掘越容易产生价值。

如果你热衷于数据挖掘领域创造价值,大公司将是不错的历练平台;但如果可以接受11-15K水平的初级人员,150-500人的公司将会是一个不错的跳板。

6.数据挖掘工具的运用与收入之间的关系?

数据说明:从每个网页中抓取JD说明,根据python中jieba库进行文本分词,并计算出现频次,并建立自己的分词标签字典。

数据说明:词频占比=该词词频/所有词词频。平均每个JD中出现次数=词频/JD数。

在JD中,非关系型数据库、脚本语言和关系型数据库是三种主要被提及的工具,平均每个job中均会提及一次以上。说明这些是必备技能。具体取了排名前30的原始词做成云图如下。

以Hadoop为代表的非关系型数据库,以python和java为代表的语言,以SQL为代表的关系型数据库构成工具的主流。

数据说明:面积图为对应词出现的频次总数,折线图为词频/job数量的比例、代表平均每个职位描述中出现某词的频次。

从折线图上看,在6-15K、16-25K、26-100K三个阶段内,绝大多数工具需求都呈现正三角形的结构,即“小大小”的情况,可以理解为在25K以前,薪资随着工具的提升而不断提升,26K以后需要有其他非软件工具技能来获得职业生涯的突破。

从工作数量上看,hadoop、python、java的数值很高,说明获得绝大多数公司的认可,所以这三门工具是在数据挖掘领域走向人生巅峰的必备良药。

更多信息,请follow公众号:数据自由之路/dataFreeLife


想起前几天刚在公众号深度分析了拉勾网上面的求职信息,正好写在这里和知友们分享。感兴趣的知友们欢迎关注公众号:城南的数视界。
首先列出一些结论给没耐心看完全文的知友分享:

  1. 一线城市(北上广深)的求职信息数量领先全国;
  2. 一线城市(北上广深)对人才的受教育水平要求不同,北京注重本科生,广州偏爱大专生;
  3. 公司类型方面, 融资初创型、处于A轮的成长型和处于天使轮的初创型公司对人才的需求最为旺盛;
  4. 职位类型方面,技术职位的比重占到而将近一半,产品类职位需求并不旺盛;
  5. 工资水平方面:

·随着公司规模的扩大,工资水平总体上也呈现不断攀升的趋势;
·处于成熟型的公司更乐于支付高水平的工资;
·金融、数据服务、教育和O2O等领域工资相对较高;
·有真才实学的产品汪,依然深受大多数企业的青睐;
·北京、上海、深圳的工资均值比较接近,而广州则明显低于它们;
·工资水平随着工作年限的增加而增长,但应届生和工作经验一年以内的人工
资不具有显著性差异。工作经验超过5年后,工资差异也不显著;
·本科生和硕士生之间的工资没有显著差异

以下是几期公众号内容的汇总:
第一篇:数据可视化(九):招聘初探
今天城南想跟小伙伴们聊一聊求职的那些事。目前已经到了寒假,秋招工作已经进入尾声了。相信和城南一样面临毕业的小伙伴们,大多数手里都握着好多offer,开始面临幸福的抉择了吧。小时候好多读书的小朋友就会想,我以后是上清华还是上北大呢?现在啊,可能很多小伙伴也会想,我马上是去阿里呢,还是腾讯呢(不要问我为啥不提百度,我在这个括号里不是提了么,也不要问我为啥不提苹果谷歌,小时候也没纠结去哈佛还是斯坦福不是)。
城南这几天也在琢磨工作的事情,琢磨的过程中无意间发现了“拉勾网”,据说这是一个以发布互联网招聘求职信息为主的网站。所以城南就顺手抓取了网站上最新发布的5000条求职信息,想看看能不能利用这些数据,分析出一些有意思的东西呢?
【公司城市】
首先城南关注了各个城市发布招聘信息的公司数量,结果如下图所示。从图中可以看出,北上广深作为一线城市,是互联网企业发展的沃土。全国发布求职信息的公司中,有超过70%是坐落在这四座城市中。同时,北京在这四座城市中又是一骑绝尘,看来大多数换联网公司还是倾向于选择首都作为其基地。抛开四大一线城市之后,拥有阿里和网易总部的杭州紧随其后,名列第五;近年来声名鹊起的成都排名第六,这两座城市也是具备冲击一线城市实力的潜力股。总之,从这幅图中可以看出来,城市越发达,互联网公司也越多。

【职位城市】
接下来城南关注具体的职位信息,想看看各个城市对人才的需求情况,结果如下图所示。从图中可以看出,城市排名和上图基本保持一致,北上广深依然名列前四,只是深圳和广州的顺序略有变化,这说明虽然广州的公司没有深圳多,但其对人才的需求却大于深圳。另外,天津和重庆在此图中强势崛起。可以预见,作为另外两座直辖市,虽然目前并没有太多的互联网公司,特别是新兴公司愿意选择它们作为基地,但天津和重庆对人才的需求却相当旺盛。随着人才的增多,未来两座城市的互联网公司也必将飞速增长。

【受教育水平一线城市】
最后城南重点研究了一线城市的互联网企业对于人才受教育水平的重视程度,结果如下图所示。从图中可以看到,北京人才需求极大,而且以本科生为主,上海和深圳则对于大专生和本科生都同样渴求,广州则更加看重大专生,对本科生的需求反而较低。鉴于本科生学历较高而大专生工作经历较丰富,这也说明北京似乎更重视人才的学历,而广州更重视人才的经验。不过有趣的是,在四大一线城市中,对硕士和博士的需求都少得可怜。这也说明,在互联网行业,似乎并不需要有太高的学历,扎实的技术、丰富的经验、灵活的思维等,都比学历更加重要。

第二篇:数据可视化(十):招聘深入分析
今天的主题,是对拉勾网上面的招聘信息进行跟深入的分析。具体来说,今天城南聚焦的主要是发布招聘信息的公司的规模情况以及这些招聘职位所属的行业信息。与昨天的分析类似,今天城南也将采用饼图和条形图来展现分析的结果。
【招聘公司类型】
首先城南希望看看拉勾网上面发布信息的公司,都处于各自发展的哪一个阶段,结果如下图所示。从图中可以看到,融资初创型、处于A轮的成长型和处于天使轮的初创型公司对人才的需求最为旺盛。这三类公司也是互联网领域中创业的急先锋,本身处在高速发展期,需要大量人才来促进公司的成长。至于处于C轮、D轮的公司,对人才的需求则相对较少。但值得注意的是,这里的占比多少,不仅受人才需求的影响,也受该阶段公司本身的占比影响。也就是说,在互联网领域中,创业公司层出不穷,而处于C轮、D轮的公司则相对较少,这样的因素也会影响其占比。

【招聘公司规模】
在招聘公司的规模方面,城南做了下图。从图中看到,大多数公司的雇员数量都在50-2000之间。这也是符合正态分布的,即雇员处于中间地段的公司数量多,雇员处于边缘地带的公司数量少。

【招聘职位类型】
接下来城南开始关注具体的招聘职位。从图中可以看到,毕竟是互联网公司,技术职位的比重占到而将近一半,想想时常听到的互联网公司对技术人员的渴求,这样的结论也是合情合理的。同时,虽然近几年随着微信的火爆,张小龙将产品经理这个职位推到了风口浪尖,但看似炙手可热的背后,其实并没有多少公司真正需要做产品的人才。这个结论确实令城南震惊。

【招聘职位领域】
最后,城南想知道这些热门职位都属于哪个领域。从下图中可以看到,移动互联网确实是大势所趋,有近一半的职位都是这个领域。其次是电子商务和金融,可以说互联网与金融的结合,不仅催生了大量p2p公司,也是未来的新风口。接下来是O2O领域,虽然近年来O2O的概念有点过度炒作,但这个领域确实有着千万级的市场,值得关注。

第三篇:数据可视化(十一):工资那点事
工资是影响我们择业的一个重要因素。近年来,互联网领域的工资待遇不断攀升,已经逐步追上并赶超了曾经独领风骚的金融领域。虽然今年号称“winteriscoming”,但作为我国经济转型重要领域,互联网的整体实力依然不可小觑。
上几期文章中,城南已经针对拉勾网上求职招聘信息,对发布招聘信息的公司,待招聘的职位等内容进行了分析。今天,城南将开始关注到职位的工资水平,并结合城市、行业、公司等情况,看看各种条件下公司都是什么情况。
【公司规模 工资】
首先让我们来看看公司规模与工资的关系。从下图中可以看到,随着公司规模的扩大,工资水平总体上也呈现不断攀升的趋势。特别是最后的2000人以上规模的公司,其工资待遇明显要高于其他规模的公司,这也说明大企业确实财大气粗。同时可以发现,500人以上规模的大公司,虽然工资待遇高,但其对人才的需求却相对较少,这也意味着要想拿到高工资,可能会面临比较激烈的竞争。

【公司类型 工资】
接下来是公司类型对工资的影响。从下图中可以看出,这次工资不再呈现直线上升趋势,而是在成熟型公司处达到顶点。相对于其他类型,处于成熟型的公司更乐于支付高水平的工资。这里的成熟型公司主要是指处于C轮、D轮的公司,这类公司上市在即,公司发展良好,但同时因为并未上市,负担相对较少,其最杰出的代表莫过于常常处于风口浪尖的滴滴等公司。因此,单从工资角度考虑,也许选择成熟型公司比盲目追求上市公司,是更好的求职策略。

【职业领域 工资】
在职位所属的类别中,移动互联网领域有着广阔的机会,但金融、数据服务、教育和O2O等领域工资相对较高。特别是金融领域,作为传统行业中高工资的代表,搭乘上“互联网”的浪潮,无疑会获得更大的机会,2015年如火如荼开展的P2P业务,也说明互联网金融领域未来可能会大有所为。同时,在线教育也是一块不可忽视的市场,最近在这个市场里也有不少公司在默默耕耘,相信距离引爆市场的奇点不会太远。

【职业类别 工资】
最后城南关注了职位的类别和工资的关系,出人意料的是,产品类职位的工资居然拔得头筹。本来大多数互联网公司往往声称缺乏技术人才,对技术类人才的渴求也可以从招聘职位和发布招聘信息的公司数量看得出来。但相比于程序猿,产品汪的需求虽然较少,但待遇却非常可观。这也说明这个领域竞争确实异常激烈,但有真才实学的产品汪,依然深受大多数企业的青睐。

今天的分析就到此为止啦,总结起来,如果仅从工资的角度出发,希望找到一份高工资的工作,那么,一家在互联网金融领域,处于成熟期,雇员超过2000人的公司的产品类岗位,将是非常好的选择。小伙伴们也可以据此比对一下自己手里的offer,衡量利弊。第四篇:数据工资差异分析 可视化(十二):工资差异分析
工资有差异,是显而易见的事情。昨天城南详解了不同公司和不同领域的职位的工资情况,从中可以看到,在互联网金融领域,处于成熟期,雇员超过2000人,产品类职位的工资水平较高。但是,这种差异到底是由于抽样导致的误差,还是真的存在于不同行业领域和不同的公司之间呢?今天城南将对工资的差异情况进行分析,以回答这个问题。
【差异分析】
差异分析就是将一组资料的总变动量,依可能造成变动的因素分解成不同的部份,并且以假设检定的方法来判断这些因素是否确实能解释资料的变动(百度百科)。用人话来说,差异分析就是检验某种差异是因为抽样导致的,还是真实存在的。举个栗子,从两个平均身高相同的班级中各抽取10位同学测量身高并计算平均值,通常得到的两个结果是有差异的,但这种差异是因为抽样导致的。因此当计算均值并发现有差异后,需检验这种差异的产生原因。当比较对象只有两组时(上面提到的班级例子),可以采用t检验的方法,但比较对象超过两组时,则需要采用方差分析的方法。【一线城市 工资】
首先来看看不同城市之间的工资水平。从北上广深的工资箱线图来看,北京、上海、深圳的工资均值比较接近,而广州则明显低于它们。方差分析的结果显示,p值远小于0.001,即有99.999%的把握可以说,四个城市之间的工资均值是有差异的。换句话说,这四个城市之间工资的差异是来自于抽样的可能性不到0.001,因此可以确定,这四个城市之间的工资确实是有差异的。但方差分析只能告诉我们差异存在,具体是谁和谁有差异,谁和谁没有差异,则需要进行进一步的多重比较。结果如下图右边的图形所示。其中蓝色方框表示有差异,红色方块表示没有差异。从图中可以看出,广州和其他三个城市的工资是有差异的,北京和上海之间的工资也是有差异的,但北京与深圳,上海与深圳的工资之间均没有差异。因此可以得出结论,四大一线城市的工资水平,北京是第一档,上海是第二档,广州是第三档,而深圳则介于北京和上海之间。

【工作年限 工资】
接下来再来看看不同工作年限之间的工资的差异情况。从箱线图中可以看出,总体来看,工资水平随着工作年限的增加而增长,但具体的差异是否显著,依然要通过方差分析来探讨。结果显示,p值远小于0.001,所以不同工作年限之间的工资水平确实是有差异的。那么接下来,从下图右图中可以详细比较这种差异情况。要求应届毕业生和要求一年以下工作经验的工作之间,工资是没有显著性差异的。其次是3-5年和10年以上,5-10年和10年以上,工资也是不存在显著性差异的。因此可以得出结论,在应届生到工作一年这段时间内,工资的不会显著提升;同时5年左右的工作经验对企业来说已经足够了。

【教育水平 工资】
最后来看看不同教育水平之间的工资的差异情况。从箱线图中可以看出,总体来看,本科生的工资是最高的,其次是硕士生,要求大专学历和不限学历的工作,工资似乎没什么差异。方差分析结果显示,p值小于0.001,所以不同受教育水平之间的工资是由差异的。多重比较的结果如下图右图所示,从中可以看出,本科生和硕士生之间的工资没有显著差异,而本科生和大专生,硕士生和大专生之间,工资是有差异的。至于不限学历的工作,和要求大专生的工作之间没有差异,而和要求本科生与硕士生的工作之间是有差异的。因此可以得出结论,单从工资的角度考虑,为了有一份工资更高的工作,从大专到本科的学历提升是有必要的,但本科到硕士甚至博士的学历提升,就没有必要了。

好了,今天的分析就到这里。从今天的分析中可以发现,城市、工作年限和受教育水平确实会显著的影响工资差异。具体来看,在北京和深圳,工作了5年以上的本科生和硕士生,均可以获得较高水平的工资。另外,从今天的分析中也可以看出,本科生和硕士生之间的工资其实没什么差异,这对于很多纠结是否读研的小伙伴来说,也许具有一定的参考意义。


这个数据必须要无偏结果才有意义,否则只能代表这个网站上的,或者网上放出来的需求。


跑题一下,目前做着基础的埋点+日常监控产品数据工作,非常想要向着这个方向学习,最近杂七杂八研究了挺多。个人认为:

牛逼的数据挖掘师工作一定是建立在对业务逻辑非常熟悉的基础上的。毕竟数据只是工具,不是目的。

也就是说,至少要兼具【不傻逼的产品经理】+【有着运营和市场的思维】+【能写代码抓数据的工程师】,才能够成为一个牛逼的数据挖掘师。

然而有什么用呢?

初创公司,体量小用户少,产品简陋不成熟,这时候是不太需要一个专业的数据挖掘师的。我们公司就踩过这样的坑。B+轮,两个产品两条业务线,今年四月挖来了两个行业内还算比较有水平的JD。然而面对刚上线不久的APP,PM忙着拉着开发拼命做基础功能,运营忙着冷启动盯用户…数据?有基础的就够了…于是,闲了两个月之后,JD离职了…

对于不是非常成熟的“小”产品来说,需要数据验证的东西,其他方式也可以验证的八九不离十,比如大量的用户吐槽。

路漫漫其修远兮,真正需要数据挖掘且能够把它用好的公司,网圈也就那么多…积攒经验和能力进大公司,才是正道。虽然,BAT停止社招弄的人心惶惶更看不见未来啦。

pps,那种招聘需求里有“不需要工作经验”这一条的,祝好运。这个岗位最需要的,就是经验。俗称,有feel。


公司信息和招聘职位信息采集爬虫(拉勾网)


向楼主致敬


自问自答看起来很好玩的样子


第一的回答能不能去发个专栏!


推薦閱讀:

python要學到一個什麼樣的程度能找到個一般的工作?
實際應用中python編寫的程序大部分都是無界面的嗎?
Python學到什麼樣子可以去找工作?
Python,Lua 哪個適合做繪圖軟體的插件腳本語言?
演算法,西瓜切十刀,最多是多少塊?

TAG:互联网 | Python | 数据挖掘 | 爬虫计算机网络 | 拉勾网 |