利用python進行數據分析之準備(一)

本書講的是利用python進行數據控制、處理、整理、分析等方面的具體細節和基本要點。

書中的「數據」主要指的是 結構化數據(structured data),例如

  • 多維數據(矩陣)
  • 表格型數據,其中各列可能是不同的類型(字元串、數值、日期等)
  • 通過關鍵列(對於SQL來說就是主鍵和外鍵)相互聯繫的多個表
  • 間隔平均或不平均的時間序列

重要的python庫

numpy

numpy(numberical python),是python的科學計算基礎包。提供的功能(不限於此):

  • 快速高效的多維數組對象ndarray
  • 讀寫硬碟上基於數組的數據集的工具
  • 線性代數運算、傅里葉變換、以及隨機數的生產

pandas

pandas這個名字源於panel data(面板數據)以及python data analysis(python數據分析)

pandas提供了能夠快速便捷的處理結構化數據的大量數據結構和函數。

matplotlib

matplotlib是流行的數據圖表的python庫。

Ipython

一個增強的python shell,目的是體改編寫、測試、調試python代碼的速度。主要用於互動式數據 的處理和利用matplotlib對數據進行可視化處理。

scipy

scipy是一組專門解決科學計算中各種標準問題域的集合,主要包括:

  • scipy.integrate 數值積分常式和微分方程求解器
  • scipy.linalg 擴展了由scipy.linalg提供的線性代數常式和矩陣分解功能

安裝和設置

這裡我們下載Anaconda2-4.3.0.1安裝包。如果你之前安裝過python的解釋器,需要手動將其刪除。

(註:Anaconda一個開源的 Python 發行版本)

此時,打開命令提示符。輸入python。與之對應的安裝消息是:

此時查看環境變數:

先刪除之前與python有關的所有環境變數。

添加在path環境中應該如下:

H:python;H:pythonScriptsn

(其中安裝Anaconda2-4.3.0.1包時候,上面的環境變數會自動添加)

Anaconda(註:Anaconda一個開源的 Python 發行版本,裡面已經內置了numpy、pandas、matplotlib等200多個包)

我們來引入pandas,繪製一個簡單的matplotlib圖形

生成這樣一個圖形

我們再檢查IPython HTML notebook是否安裝成功:

集成開發環境(IDE)

標準開發環境?Ipython外加一個文本編輯器(pycharm)

行話

數據規整:指的是將非結構化或散亂數據處理為結構化或整潔形式的整個過程。

偽碼:演算法或過程的「代碼式」描述,而這些代碼本身並不是實際有效的源代碼。

語法糖:這是一種編程語法,並不會帶來新的特性,但是能使代碼更易讀、更易寫。

聲明:

以上學習筆記來自

《利用python進行數據分析》Wes McKinney 編著 唐學韜等譯 機械工業出版社

推薦閱讀:

TAG:Python | 数据分析 |