Power BI的可視化應用
Power BI和Tableau是知名的可視化分析軟體,在數據的可視化應用方面,相較於Excel不僅功能強大而且操作簡便,有時候僅僅需要滑鼠的拖拽和點擊即可完成漂亮的圖標製作。儘管Tableau目前來說是最好的BI 軟體,但由於license費用較高,而Power BI的桌面版對於個人來說完全免費,我主要學習和使用的是Power BI(主要是Tableau過期了)。不過值得吐槽的是,Power BI有著不低的更新頻率,很可能上個版本熟悉的界面更新之後稍稍陌生了。當然了,幾乎每次更新後都比之前更好用了。我嘗試使用Power BI進行Titanic: Machine Learning from Disaster數據集的可視化。
一、 數據處理
首先使用Power BI 載入數據集train.csv。
進入編輯查詢頁面。
對姓名這一變數進行拆分,得到名、稱呼和姓等3組新變數。
對所有變數重命名。
對各個變數使用篩選功能,查看缺失值。存在缺失值的變數為:年齡、客艙區域和登船港口。客艙區域和登船港口的缺失值無法進行有效插補。年齡有177個缺失值可考慮使用中位數或平均數插補。
在轉換中進行年齡的統計信息計算,得出中位數為28,平均數為29.70。可使用平均數進行缺失值插補。
二、 數據可視化
Power BI的圖表繪製十分方便而且有多種圖表形式可供選擇,最總要的是操作簡潔,在可視化方面遠遠勝過Excel。
1. 性別和存活情況
很顯然,女性乘客的存活率大大超過男性乘客
2. 客艙等級和存活情況
客艙等級越高,存活率越高。
3. 票價和存活情況
大體上,票價越高,存活率也越高。
4. 年齡和存活情況
5. 船上兄弟姐妹及配偶數量和存活情況
船上兄弟姐妹及配偶數量為0或大於2時存活率較低。
6. 船上父母及子女數量和存活情況
船上父母及子女數量為0或大於2時存活率較低。
7. 稱呼和存活情況
稱呼為Mrs、Miss的人群明顯存活率超過50%,稱呼為Master和Dr的人群的存活率也在50%左右。稱呼為Mr的人群的存活率非常低。
8. 家庭(成員人數不小於2)和存活情況
從模型上可以假設,預測集test中姓氏和訓練集train中姓氏相同的人是屬於同樣的家庭。對於人數不小於2的家庭,且都存活或者死亡的家庭,數據集test中他們的相同姓氏的家人大概率也會和他們有共同的存活情況。
9. 總結
可以將所有圖表放在同一個頁面。
通過選中某一圖表中的一部分,其他圖表中對應的數據也相應會變化。比如選中性別和存活情況中女性的存活人數,圖表就會發生以下變化。
還可以進行其他類似的操作,就不詳細說了。
三、 結束語
使用Power BI通過很便捷的操作,就可以把主要變數與生存情況的關係用可視化圖表的方式展示。藉助圖表可以很容易地進行相關的分析。
推薦閱讀:
※對於excel power pivot初學者有什麼入門教程還有課程?
※有了power BI還需要深入學習Excel圖表製作嗎?
※請問Power Pivot, PowerView和PowerBI在產品宣傳,功能,及本質上有什麼不同?