醫院銷售數據分析(數據分析第4關)
(本文為小白菜鳥筆記,大牛請忽略哈。閱讀大約10分鐘,看到的朋友請多指教,謝謝~~)
文章結構
一,Numpy的Array練習
二,Pandas的一維數據練習
三,Pandas的二維數據練習及案例實戰
四,數據分析、數據清洗基本過程
五,學習心得
一,Numpy的Array練習
Numpy是(Numeric Python)的縮寫,是Python中用於存儲和處理大型矩陣的工具,其中的Array可用於處理N維數組對象,下面是一些練習代碼,主要參考書籍為《利用python進行數據分析》。
用array創建數組
其中,創建全部由0、1組成的特殊數組、創建空數組的方法很特殊。
設置數據類型
一些數組在生產的時候,可能會涉及對數據類型屬性的設置,如上例,可直接指定。
數組和標量之間的運算
索引與切片
numpy的二維數組
以上是關於numpy中,用array對數組的生成、增、刪、查、改等基本操作的練習,這只是最基本的操作,後續要用到的功能還要繼續搜索來加強。
二,Pandas的一維數據練習
pandas的一維數據series與array的功能類似,都是處理一維數據的利器,這一部分我結合了《利用python進行數據分析》里的案例,做了一些練習。
三,Pandas的二維數據練習及案例實戰
上述以一個例子,簡要的描述了數據分析的基本過程
四,數據分析、數據清洗基本過程
(1)如上圖,數據分析基本上有如上幾個步驟,其中前2步是整個分析過程能否成功的關鍵,「好的問題的提出,等於解決了一半的問題」,因此拿到分析數據時,首先要理解項目,問自己幾個問題,並據此理解數據,看看該如何下手。這種「數據分析思維」才是最重要的,是要著力培養的。
(2)知道了「要什麼」後,就可以朝著目標前進了,接下來就開始處理數據了,也就是開始「如何實現」的步驟了。接下來要開始「數據清洗」了,這是整個分析過程中最耗時的,也是後面的分析能順利實現的基礎,具體的「數據清理」由以下幾個步驟:
以上幾個步驟的數據清洗後,將使數據更加規律,便於統計、計算、分析,也便於後續建模的實現,具體參見上一章節中的操作。
(3)完成了「數據清洗」之後,就可以結合前面提出的問題「要什麼」開始建立模型,想想用哪些指標來回答這些問題?這些指標如何計算?
(4)完成了模型、指標等的構建和計算之後,將所得到的數據整理好,就可以開始可視化部分了,主要用matplotlib包進行可視化展示。之前一篇文章《對GAFATA、百度股票數據的描述性統計分析》中就用到了matplotlib進行了數據展示,後面也會進一步加強這方面的學習。
五,學習心得
本段學習剛好趕在春節期間,兩地奔波導致進度有點滯後,而且本章的學習屬於層層遞進的關係,後面沒跟上的話前面的又要重新複習,所以一定要一鼓作氣!
如果您看到了這兒,請一定以我為戒,克服惰性和懈怠感,無論如何一定要一氣呵成的完成,避免拖拖拉拉,越拖越耽誤時間,並且還容易打擊自己的自信。
練習方面,一定要多敲代碼、多敲代碼、多敲代碼!不能照著例子寫一遍就完了,這也是我後面要加強的,一起加油吧!
推薦閱讀:
※大數據人的職業生涯規劃分享要點
※數據分析、數據挖掘和機器學習共享
※3分鐘帶你認識知乎刷贊
※用戶畫像學習
※回顧與展望轉行數據科學路上的點點滴滴(2016-2018)