醫院銷售數據分析(數據分析第4關)

(本文為小白菜鳥筆記,大牛請忽略哈。閱讀大約10分鐘,看到的朋友請多指教,謝謝~~)

文章結構

一,Numpy的Array練習

二,Pandas的一維數據練習

三,Pandas的二維數據練習及案例實戰

四,數據分析、數據清洗基本過程

五,學習心得


一,Numpy的Array練習

Numpy是(Numeric Python)的縮寫,是Python中用於存儲和處理大型矩陣的工具,其中的Array可用於處理N維數組對象,下面是一些練習代碼,主要參考書籍為《利用python進行數據分析》。

用array創建數組

其中,創建全部由0、1組成的特殊數組、創建空數組的方法很特殊。

設置數據類型

一些數組在生產的時候,可能會涉及對數據類型屬性的設置,如上例,可直接指定。

數組和標量之間的運算

索引與切片


numpy的二維數組

以上是關於numpy中,用array對數組的生成、增、刪、查、改等基本操作的練習,這只是最基本的操作,後續要用到的功能還要繼續搜索來加強。


二,Pandas的一維數據練習

pandas的一維數據series與array的功能類似,都是處理一維數據的利器,這一部分我結合了《利用python進行數據分析》里的案例,做了一些練習。


三,Pandas的二維數據練習及案例實戰

這是後面經常要用到的索引,ix、iat現在雖然不常用,但一併總結在這裡。

讀取數據這一步,非常重要!!!

很適合

上述以一個例子,簡要的描述了數據分析的基本過程


四,數據分析、數據清洗基本過程

(1)如上圖,數據分析基本上有如上幾個步驟,其中前2步是整個分析過程能否成功的關鍵,「好的問題的提出,等於解決了一半的問題」,因此拿到分析數據時,首先要理解項目,問自己幾個問題,並據此理解數據,看看該如何下手。這種「數據分析思維」才是最重要的,是要著力培養的。

(2)知道了「要什麼」後,就可以朝著目標前進了,接下來就開始處理數據了,也就是開始「如何實現」的步驟了。接下來要開始「數據清洗」了,這是整個分析過程中最耗時的,也是後面的分析能順利實現的基礎,具體的「數據清理」由以下幾個步驟:

以上幾個步驟的數據清洗後,將使數據更加規律,便於統計、計算、分析,也便於後續建模的實現,具體參見上一章節中的操作。

(3)完成了「數據清洗」之後,就可以結合前面提出的問題「要什麼」開始建立模型,想想用哪些指標來回答這些問題?這些指標如何計算?

(4)完成了模型、指標等的構建和計算之後,將所得到的數據整理好,就可以開始可視化部分了,主要用matplotlib包進行可視化展示。之前一篇文章《對GAFATA、百度股票數據的描述性統計分析》中就用到了matplotlib進行了數據展示,後面也會進一步加強這方面的學習。


五,學習心得

本段學習剛好趕在春節期間,兩地奔波導致進度有點滯後,而且本章的學習屬於層層遞進的關係,後面沒跟上的話前面的又要重新複習,所以一定要一鼓作氣!

如果您看到了這兒,請一定以我為戒,克服惰性和懈怠感,無論如何一定要一氣呵成的完成,避免拖拖拉拉,越拖越耽誤時間,並且還容易打擊自己的自信。

練習方面,一定要多敲代碼、多敲代碼、多敲代碼!不能照著例子寫一遍就完了,這也是我後面要加強的,一起加油吧!


推薦閱讀:

大數據人的職業生涯規劃分享要點
數據分析、數據挖掘和機器學習共享
3分鐘帶你認識知乎刷贊
用戶畫像學習
回顧與展望轉行數據科學路上的點點滴滴(2016-2018)

TAG:數據分析 | Python入門 |