實戰!拉勾網數據分析(下)數據分析---excel使用技巧

實戰!拉勾網數據分析(下)數據分析---excel使用技巧

本次實戰案例通過python爬蟲獲取拉勾網招聘數據,應用excel對招聘數據進行數據分析。分為上下部,上部為python爬蟲數據獲取部分,下部為excel數據分析部分。

涉及知識

Python爬蟲,反爬實用技巧;Excel補充缺失值;去重;分列;數據透視表等相關操作。

概述

本篇文章採用Excel來對拉勾招聘數據進行數據分析處理,將按照以下的流程進行操作。

提出問題

明確問題是數據分析的第一步,我們這次主要的目標是通過分析來回答下面兩個問題

問題1: 數據分析崗位薪水如何?

問題2: 數據分析的發展前景怎麼樣?

理解數據

理解數據這個環節,我們需要基於問題,要確定我們需要的數據欄位。

筆者爬取了拉勾網關鍵字「數據分析」的在北京地區(因為筆者在北京,其他地區沒考慮)所有招聘職位,最終確定的爬取欄位為:

「公司全稱,公司簡稱,薪水,工作經驗,學歷,職位全稱,職位描述」

數據如下(共435個職位)

數據清洗

當我們拿到了數據,下一步就是數據清洗,接下來我們來對數據進行數據清洗工作。

選擇子集

現在再來回顧一下我們要分析的問題

問題1: 數據分析崗位薪水如何?

問題2: 數據分析的發展前景怎麼樣?

基於對問題的理解,我們要清楚需要的欄位為「職位」,「薪水」,「工作經驗」那麼其他的不相關的欄位我們可以暫時「隱藏」

最終留下「公司簡稱」,「職位名」,「薪水」,「工作經驗」

Excel操作: 右鍵點擊列表頭---點擊「隱藏」

列表重命名

將原數據表頭的名稱進行修改。

刪除重複數據

通過下圖的操作我們可以查找並且刪除數據中的重複值。

Excel操作---刪除重複數據(圖片來源: 猴子live)

效果圖如下,刪除了3條重複的數據

缺失值處理

缺失值處理需要明確三個問題(操作圖取自 猴子live)

(1)統計缺失了多少數據

(2)定位到缺失值

(3)人工一次性補全所有缺失值

Excel操作---缺失值處理(圖片來源: 猴子live)

一致化處理

將薪水這一欄數據從「字元型」處理為「數值型」便於數值的分析計算

(1)拆分薪水的最大值和最小值

(2)去掉「K」值,將字元數據變為數值數據

使用find函數來處理單位「K」的問題

Find函數 Find(要查找的字元串,字元串所在的單元格位置)

LEFT/RIGHT函數 LEFT/RIGHT(字元串所在單元格位置,從左/右開始XX位置進行截取)

採用 left和find函數結合就可以取到k值前面的數字,最高薪水同理

(3)篩選功能去除錯誤數據

Excel操作---篩選/替換(圖片來源: 猴子live)

(4)「數值型字元串」轉化為「數字」

我們把「最低和最高薪水」的異常值處理後,看上去得到了完整的數據,但是這時還不能算「平均數」,因為這兩組數字是「字元型」並不是「數值」,所以要加一道轉化的

操作。

具體操作步驟

注意: 第二張圖的操作路徑為: 數據----分列 ----彈窗(然後按圖操作就可以了)

(5)計算平均值

接下來我們就可以用平均值公式進行計算平均值了。

數據排序

我們現在知道了每個崗位的「平均薪水」那麼可以對這些崗位進行了一個「排序」操作。

通過對平均薪水的排序,我們可以找出哪些公司的薪水高,哪些薪水相對較低,從而方便我們求職的時候做出決策。

高薪的公司

低薪資公司

異常值處理

註:因為我爬取的數據關鍵字本身就是「數據分析」所以數據相對來說比較乾淨。異常值處理的這個案例,採用猴子老師的數據給大家演示一下該如何操作。

目標是去掉職位信息裡面和「數據分析」不相關的崗位信息。

這裡需要嵌套三個函數:

Find函數 Find(要查找的字元串,字元串所在的單元格位置)

COUNT函數 COUNT(開始單元格,截止單元格)

COUNT函數在計算非空單元格的個數時,將把數字型的數字計算進去,錯誤值、文字、邏輯值、空值將被忽略

IF 函數 IF(條件,條件成立返回的值,條件不成立返回的值)

嵌套函數為:IF(COUNT(FIND{「數據分析」,」數據運營」,」分析師」},L2,」是」,」否」))

Excel操作---篩選關鍵字,添加判斷(圖片來源: 猴子live)

數據建模

我們通過數據清洗,獲得了可以分析的數據,這章我們通過應用「數據透視表」來進行數據建模分析。

目標1: 建立工作年限和工作經驗相關關係

Excel操作---建立數據透視表(圖片來源: 猴子live)

分析結論

北京地區的數據分析職位

工作經驗1-3年:平均薪水為15K

工作經驗3-5年:薪資集中在20-30k之間

工作經驗5-10年:25-30K.

目標2: 分析「平均薪水」

Excel操作---數值描述性分析(圖片來源: 猴子live)

分析結論

北京地區的數據分析職位「平均薪水」

平均數(均值為:19K中位數:20k 眾數為:22.k)

三個集中趨勢指標相差程度不大,可以得出,北京市數據分析崗位的月平均薪水大概在19-20k

離散程度上分析,薪酬的全距為57.5k,標準差8.74,意味著大部分數據在均值上下會有8k左右的浮動。

所以我們可以認為絕大多數在北京從事數據分析行業的人,薪資在11-27k(均值上下浮動8k)。

回答問題

問題1: 數據分析崗位薪水如何?

絕大多數在北京從事數據分析行業的人,薪資在11-27k(均值19k上下浮動8k)。

問題2: 數據分析的發展前景怎麼樣?

工作經驗1-3年:平均薪水為15K

工作經驗3-5年:薪資集中在20-30k之間

工作經驗5-10年:25-30K.

最後的彩蛋!

補充一點(「應屆生的需求很少,而且薪資為2.5k-4.5k,可見這個行業0-1是一個非常大的檻!!!


推薦閱讀:

科學家通過大數據分析,最終認為宇宙中只剩下地球能孕育生命
「有層次、可發展」的門店數字化管理,是通往新零售的必經之路
店鋪選址分析
機器學習的學習筆記(0)
使用pandas_datareader包獲取股票交易數據

TAG:數據分析 | 數據挖掘 | 數據分析師 |