【R可視化】將薪比薪

作者簡介

傅興:個人公眾號:Rapp

往期回顧

【R圖秀-2】社交網路數據可視化(一)mp.weixin.qq.com圖標【R圖秀-3】--「全球和平指數」可視化mp.weixin.qq.com圖標【R圖秀】情人節快樂!mp.weixin.qq.com圖標

謹以此文送給即將畢業的學生們

又到一年畢業季,實驗室又送走了一批碩士博士。無論是出國做博後,還是留在國內發展,大家總算結束了窮苦的學生生涯,自己多年的努力終於修成正果。詩和遠方雖然是美好的,但是找個滿意的高薪職位顯然更有現實意義。聽著畢業生們談論著工資待遇,我這個畢業多年的老人家也按耐不住內心的小激動,想看看我們這個專業(生物信息學)現在到底有多少「錢景」。

現在的招聘網站有很多,但我個人比較喜歡獵聘網(liepin.com/),所以我們今天就來分析獵聘網上的數據。

我們先用「生物信息」做關鍵詞來搜索職位:

我喜歡獵聘網的一個主要原因就是他的搜索結果很合我的口味:

重要的信息一目了然。對求職者來說,最重要的信息無非就是工資(重中之重)、地點、教育背景和工作經驗。如果想了解更詳細的內容,可以點擊職位鏈接。這樣的設計不僅便於求職者瀏覽,還特別適合用爬蟲程序來解析。

搜索的結果是分頁顯示的,我們點擊>|按鈕到達最後一頁,並記下找到的最大頁數(後面的爬蟲程序需要用到)。

我的爬蟲程序利用的是rvest包。策略如下:

1. 先用瀏覽器在獵聘網上搜索,通過瀏覽器地址欄中的URL弄清它的API有哪些參數(比如key,curPage等)

2. 用瀏覽器查看搜索結果頁面的html代碼,找到想要提取的element的class,attribute等信息

3. 先寫一個解析單頁面的函數

4. 再寫一個解析所有頁面的函數,實際上就是循環調用上一個函數,直到完成所有頁面(這就是為什麼要先搞清楚搜索結果總共有多少頁)

5. 我對解析到的原始數據進行了一些處理:我想要具體的工資數,所以去掉了「面議」的結果;我想知道具體的城市,所以去掉了包含「省」的結果;工資數是一個從最低到最高的範圍,我取它們的平均值。

2個函數的代碼如下:

在調用函數的時候,我們只需要2個參數:搜索關鍵詞(keyword)和搜索結果的最大頁數(max_page)。除了我的專業外,我還對深度學習技術非常感興趣,也在努力地惡補相關知識,所以今天也順便了解一下深度學習的「錢景」如何。其實,從max_page=63就已經能看到它有多火熱了。

爬蟲程序得到的結果如下:

接下來的工作就是做一點簡單的統計:

1. 首先是看工資的分布

生物信息:大約三分之一的職位處於10~15萬的區間,25萬以上只有10%

深度學習:20萬以上的職位就佔了90%!40萬以上差不多有三分之一

2. 然後看看北京、上海、深圳的工資

生物信息:深圳有華大,北京有貝瑞和康、諾和致源,上海能叫的出名字的公司是哪家呢?工資水平也反映出了這種地域上差距。上海的同行們要加把勁啦!

深度學習:上海的公司很給力!是我們學習的好榜樣!

3. 再看看學歷要求

生物信息:儘管博士的需求不少,但是大部分職位本科生就可以勝任(跑跑流程而已)

深度學習:最起碼讀個碩士吧,門檻還是比較高

4. 最後是工作經驗

生物信息:如果我把「經驗不限」理解為沒有經驗,那麼84%的職位只需要0~1年的工作經驗,門檻較低

深度學習:顯然對工作經驗的要求更高

作圖函數如下:

調用作圖函數的代碼:

今天R圖秀讓我充滿了學習的動力和拼搏的勇氣,為了更高的目標而努力吧!

往期精彩內容整理合集

2017年R語言發展報告(國內)mp.weixin.qq.com圖標R語言中文社區歷史文章整理(作者篇)mp.weixin.qq.com圖標R語言中文社區歷史文章整理(類型篇)mp.weixin.qq.com圖標
推薦閱讀:

TAG:R編程語言 | 可視化 |