利用Power BI進行數據分析及可視化

根據秦路大師的《數據可視化:深入淺出BI》學習了關於BI的相關知識及應用操作,現利用Power BI對數據分析師招聘需求進行分析。

Power BI可從微軟官方網站下載,打開需要註冊登錄的點關閉可跳過。

分析目標:

1、各城市提供的崗位數有多少

2、各城市數據分析師的平均薪資

3、受教育程度與平均薪資的關係

4、不同工作年限所對應的職位數和薪資關係

一、導入數據

打開Power BI,開始 — 獲取數據,發現可以導入excel,Power BI數據、資料庫等,點擊『更多』可查看所有數據類型,示例數據為csv類型,選擇文本/CSV,從路徑中選擇需要處理的文件。

導入文件DA1,導入後界面如下:

可以在這裡點擊編輯,對數據進行編輯修改,也可以先載入,後面再修改。

載入、導入完畢後點擊左側數據欄,查看數據。

二、數據清洗

開始 — 編輯查詢,進入Power Query編輯器頁面。

1、刪除多餘列,留下需要分析的列:

根據分析需要,通過菜單欄的「刪除列」去掉不需要的列,如companyfullname、businessZones等,也可通過右鍵刪除列。

2、去掉重複值:

positionid作為可唯一區分的欄位,根據此列去掉重複值。

點擊「positionId」,右鍵,刪除重複項。

3、拆分列:

轉換 — 拆分列 :可按分隔符或者按字元數對列數據進行拆分。

按分隔符「,」對「companyLabelList」列進行拆分:

拆分結果如下:

拆分之後會覆蓋之前的列,如需保留原有列,可先將需要拆分的列複製之後再拆分。

4、替換值:

可將空值或者某些欄位替換成所需要的數據。

將分列後的「companyLableList」的中括弧替換掉。

5、篩選出與「數據分析」相關的崗位

5、將修改後的數據保存到表。

開始 — 關閉並應用。

返回到Power BI Desktop的界面,之前的修改已保存到原表。

可以看出,篩選後的表剩餘2,337行。

頁面右側可對應用的步驟進行修改、刪除等。

6、處理salary列。

新建「bottomsalary」、「topsalary」及「avgsalary」列。

模型 — 新建列

新建列沒有內容,利用Power BI的DAX功能,即函數表達式,可以使用加減乘除及一些函數。

先填充新建列的內容:

bottomsalary = DA1[salary]

「bottomsalary」新建列的名稱,「DA1」需要引用的表名稱,「salary」需要引用的列名。

利用公式輸出最低工資的數據。

bottomsalary = LEFT(DA1[salary],SEARCH("k",DA1[salary],1)-1)

利用search查找字元「k」的位置,從「salary」左側開始截取,到「k」字元位置的前一位,即為「bottomsalary」。

新建「topsalalry」,公式表達可通過定位「-」的位置,從中間截取;因為「salary」列存在「?k以上」的格式,因此用「IFERROR」對錯誤數據定義為等於最低工資。

topsalary = IFERROR(MID(DA1[salary],SEARCH("-",DA1[salary],1)+1,LEN(DA1[salary])-SEARCH("-",DA1[salary],1)-1),DA1[bottomsalary])

「avgsalary」可利用最高工資和最低工資的平均值計算。

avgsalary = (DA1[bottomsalary]+DA1[topsalary])/2

對「salary」列的處理差不多就完成了。

三、數據分析及可視化

1、數據透視

Power Query編輯器中,「轉換 — 分組依據」 可對數據進行透視,類似於excel 的數據透視表。

分析各城市所提供的數據分析師崗位數,下拉倒三角可進行排序篩選:

從數據透視結果可以看出,北上廣深及杭州提供的就業機會高於其他城市,而北京的職位數遠高於第二名上海,求職者可在北京獲取到更多的機會。

加入教育程度及工作年限要求:

根據受教育程度及工作年限的細分,每位求職者可結合自身實際情況,查詢到各城市所能提供的招聘需求,做出更符合個人條件的選擇。

2、生成圖表

頁面左側 — 報表:

在可視化下有部分報表模板,選擇相應的報表,拖動欄位。

① 各城市數據分析師的平均薪資柱形圖:

從柱形圖可以看出:北京和深圳的平均薪資基本持平,北京、深圳、上海、杭州的薪資高於其他城市,這裡的薪資包含了所有學歷和工作年限。

② 不同學歷的平均薪資:

博士學歷最高,本科和碩士薪資基本持平。

③ KPI:

將崗位數和平均薪資作為關鍵指標,單獨列出:

通過KPI圖,可以更加直觀地看出每個城市提供的崗位數和平均薪資。

④ 根據工作年限計算職位數和平均薪資:

柱形圖表示職位數,折線圖表示平均薪資,要求有1-3年工作經驗的職位數最多,其薪資水平處於中等;10年以上工作經驗的職位數最少,因為要求高所以薪酬待遇也最好。

⑤ 聯動效果:

Power BI 提供不同圖表之間的數據聯動,點擊其中一個圖表的維度,其餘圖表數據也會發生變化。

下圖為深圳地區的數據:崗位數和平均薪資作為關鍵指標顯示為深圳的數據,學歷及工作年限突出顯示,深圳地區的薪資基本都高於市場平均薪資,其中大專學歷薪資高出較多;右下角樹狀圖表示不同行業領域對數據分析師的需求,面積大表示需求量大,招聘的人數更多。

通過Power BI,將數據分析師的招聘需求以圖表的形式表現出來,數據表達更直觀,其聯動效果使數據觀察更簡便,也給人以視覺享受。


推薦閱讀:

TAG:數據分析 | 可視化 | PowerBI |