實戰!拉勾網數據分析(下)數據分析---excel使用技巧
本次實戰案例通過python爬蟲獲取拉勾網招聘數據,應用excel對招聘數據進行數據分析。分為上下部,上部為python爬蟲數據獲取部分,下部為excel數據分析部分。
涉及知識
Python爬蟲,反爬實用技巧;Excel補充缺失值;去重;分列;數據透視表等相關操作。
概述
本篇文章採用Excel來對拉勾招聘數據進行數據分析處理,將按照以下的流程進行操作。
提出問題
明確問題是數據分析的第一步,我們這次主要的目標是通過分析來回答下面兩個問題
問題1: 數據分析崗位薪水如何?
問題2: 數據分析的發展前景怎麼樣?
理解數據
理解數據這個環節,我們需要基於問題,要確定我們需要的數據欄位。
筆者爬取了拉勾網關鍵字「數據分析」的在北京地區(因為筆者在北京,其他地區沒考慮)所有招聘職位,最終確定的爬取欄位為:
「公司全稱,公司簡稱,薪水,工作經驗,學歷,職位全稱,職位描述」
數據如下(共435個職位)
數據清洗
當我們拿到了數據,下一步就是數據清洗,接下來我們來對數據進行數據清洗工作。
選擇子集
現在再來回顧一下我們要分析的問題
問題1: 數據分析崗位薪水如何?
問題2: 數據分析的發展前景怎麼樣?
基於對問題的理解,我們要清楚需要的欄位為「職位」,「薪水」,「工作經驗」那麼其他的不相關的欄位我們可以暫時「隱藏」
最終留下「公司簡稱」,「職位名」,「薪水」,「工作經驗」
Excel操作: 右鍵點擊列表頭---點擊「隱藏」
列表重命名
將原數據表頭的名稱進行修改。
刪除重複數據
通過下圖的操作我們可以查找並且刪除數據中的重複值。
Excel操作---刪除重複數據(圖片來源: 猴子live)
效果圖如下,刪除了3條重複的數據
缺失值處理
缺失值處理需要明確三個問題(操作圖取自 猴子live)
(1)統計缺失了多少數據
(2)定位到缺失值
(3)人工一次性補全所有缺失值
Excel操作---缺失值處理(圖片來源: 猴子live)
一致化處理
將薪水這一欄數據從「字元型」處理為「數值型」便於數值的分析計算
(1)拆分薪水的最大值和最小值
(2)去掉「K」值,將字元數據變為數值數據
使用find函數來處理單位「K」的問題
Find函數 Find(要查找的字元串,字元串所在的單元格位置)
LEFT/RIGHT函數 LEFT/RIGHT(字元串所在單元格位置,從左/右開始XX位置進行截取)
採用 left和find函數結合就可以取到k值前面的數字,最高薪水同理
(3)篩選功能去除錯誤數據
Excel操作---篩選/替換(圖片來源: 猴子live)
(4)「數值型字元串」轉化為「數字」
我們把「最低和最高薪水」的異常值處理後,看上去得到了完整的數據,但是這時還不能算「平均數」,因為這兩組數字是「字元型」並不是「數值」,所以要加一道轉化的
操作。
具體操作步驟
注意: 第二張圖的操作路徑為: 數據----分列 ----彈窗(然後按圖操作就可以了)
(5)計算平均值
接下來我們就可以用平均值公式進行計算平均值了。
數據排序
我們現在知道了每個崗位的「平均薪水」那麼可以對這些崗位進行了一個「排序」操作。
通過對平均薪水的排序,我們可以找出哪些公司的薪水高,哪些薪水相對較低,從而方便我們求職的時候做出決策。
異常值處理
註:因為我爬取的數據關鍵字本身就是「數據分析」所以數據相對來說比較乾淨。異常值處理的這個案例,採用猴子老師的數據給大家演示一下該如何操作。
目標是去掉職位信息裡面和「數據分析」不相關的崗位信息。
這裡需要嵌套三個函數:
Find函數 Find(要查找的字元串,字元串所在的單元格位置)
COUNT函數 COUNT(開始單元格,截止單元格)
COUNT函數在計算非空單元格的個數時,將把數字型的數字計算進去,錯誤值、文字、邏輯值、空值將被忽略
IF 函數 IF(條件,條件成立返回的值,條件不成立返回的值)
嵌套函數為:IF(COUNT(FIND{「數據分析」,」數據運營」,」分析師」},L2,」是」,」否」))
Excel操作---篩選關鍵字,添加判斷(圖片來源: 猴子live)
數據建模
我們通過數據清洗,獲得了可以分析的數據,這章我們通過應用「數據透視表」來進行數據建模分析。
目標1: 建立工作年限和工作經驗相關關係
Excel操作---建立數據透視表(圖片來源: 猴子live)
分析結論
北京地區的數據分析職位
工作經驗1-3年:平均薪水為15K
工作經驗3-5年:薪資集中在20-30k之間
工作經驗5-10年:25-30K.
目標2: 分析「平均薪水」
Excel操作---數值描述性分析(圖片來源: 猴子live)
分析結論
北京地區的數據分析職位「平均薪水」
平均數(均值為:19K中位數:20k 眾數為:22.k)
三個集中趨勢指標相差程度不大,可以得出,北京市數據分析崗位的月平均薪水大概在19-20k
離散程度上分析,薪酬的全距為57.5k,標準差8.74,意味著大部分數據在均值上下會有8k左右的浮動。
所以我們可以認為絕大多數在北京從事數據分析行業的人,薪資在11-27k(均值上下浮動8k)。
回答問題
問題1: 數據分析崗位薪水如何?
絕大多數在北京從事數據分析行業的人,薪資在11-27k(均值19k上下浮動8k)。
問題2: 數據分析的發展前景怎麼樣?
工作經驗1-3年:平均薪水為15K
工作經驗3-5年:薪資集中在20-30k之間
工作經驗5-10年:25-30K.
最後的彩蛋!
補充一點(「應屆生的需求很少,而且薪資為2.5k-4.5k,可見這個行業0-1是一個非常大的檻!!!
推薦閱讀:
※科學家通過大數據分析,最終認為宇宙中只剩下地球能孕育生命
※「有層次、可發展」的門店數字化管理,是通往新零售的必經之路
※店鋪選址分析
※機器學習的學習筆記(0)
※使用pandas_datareader包獲取股票交易數據