Power BI的可視化應用

Power BI和Tableau是知名的可視化分析軟體,在數據的可視化應用方面,相較於Excel不僅功能強大而且操作簡便,有時候僅僅需要滑鼠的拖拽和點擊即可完成漂亮的圖標製作。儘管Tableau目前來說是最好的BI 軟體,但由於license費用較高,而Power BI的桌面版對於個人來說完全免費,我主要學習和使用的是Power BI(主要是Tableau過期了)。不過值得吐槽的是,Power BI有著不低的更新頻率,很可能上個版本熟悉的界面更新之後稍稍陌生了。當然了,幾乎每次更新後都比之前更好用了。我嘗試使用Power BI進行Titanic: Machine Learning from Disaster數據集的可視化。

一、 數據處理

首先使用Power BI 載入數據集train.csv。

進入編輯查詢頁面。

對姓名這一變數進行拆分,得到名、稱呼和姓等3組新變數。

對所有變數重命名。

對各個變數使用篩選功能,查看缺失值。存在缺失值的變數為:年齡、客艙區域和登船港口。客艙區域和登船港口的缺失值無法進行有效插補。年齡有177個缺失值可考慮使用中位數或平均數插補。

在轉換中進行年齡的統計信息計算,得出中位數為28,平均數為29.70。可使用平均數進行缺失值插補。

二、 數據可視化

Power BI的圖表繪製十分方便而且有多種圖表形式可供選擇,最總要的是操作簡潔,在可視化方面遠遠勝過Excel。

1. 性別和存活情況

很顯然,女性乘客的存活率大大超過男性乘客

2. 客艙等級和存活情況

客艙等級越高,存活率越高。

3. 票價和存活情況

大體上,票價越高,存活率也越高。

4. 年齡和存活情況

5. 船上兄弟姐妹及配偶數量和存活情況

船上兄弟姐妹及配偶數量為0或大於2時存活率較低。

6. 船上父母及子女數量和存活情況

船上父母及子女數量為0或大於2時存活率較低。

7. 稱呼和存活情況

稱呼為Mrs、Miss的人群明顯存活率超過50%,稱呼為Master和Dr的人群的存活率也在50%左右。稱呼為Mr的人群的存活率非常低。

8. 家庭(成員人數不小於2)和存活情況

從模型上可以假設,預測集test中姓氏和訓練集train中姓氏相同的人是屬於同樣的家庭。對於人數不小於2的家庭,且都存活或者死亡的家庭,數據集test中他們的相同姓氏的家人大概率也會和他們有共同的存活情況。

9. 總結

可以將所有圖表放在同一個頁面。

通過選中某一圖表中的一部分,其他圖表中對應的數據也相應會變化。比如選中性別和存活情況中女性的存活人數,圖表就會發生以下變化。

還可以進行其他類似的操作,就不詳細說了。

三、 結束語

使用Power BI通過很便捷的操作,就可以把主要變數與生存情況的關係用可視化圖表的方式展示。藉助圖表可以很容易地進行相關的分析。


推薦閱讀:

對於excel power pivot初學者有什麼入門教程還有課程?
有了power BI還需要深入學習Excel圖表製作嗎?
請問Power Pivot, PowerView和PowerBI在產品宣傳,功能,及本質上有什麼不同?

TAG:数据分析 | PowerBI | TABLEAU |