Python學習筆記--1

對目前學習Python作一個知識點小結(以』保溫杯的評價數據作案例『):

【數據導入】

先導入分析用的模塊:

導入csv文件:

除了csv文件,常用的還有Excel,SQL及txt文件,

Excel--->pd.read_excel (filename), 導入Excel文件時需載入』xlrd『包

SQL---->pd.read_sql (sql ,conn),導入前需載入』pymysql『包,sql參數為查詢的sql語句

conn = pymysql.connect (host=127.0.0.1, user=root, passwd=****,

db=****)

txt----->pd.read_table(filename, names=columns, sep = ***)

names為自定義的欄位名,sep為分隔符號

【數據整理清洗】

1. 更改中文欄位名為英文---df_columns

2. 數據瀏覽---df_info()

3. 數值型欄位的描述性統計---df_describe()

4. 欄位數據類型轉換:

---案例中將「score_」的三個欄位轉成Float格式---df.convert_objects

5. 缺失值處理:

a. 缺失值一種處理辦法是直接刪除:

---直接刪除含有缺失值的欄位---df.dropna(axis=1,how=any/all)

any是只要有一個是NaN就刪除,all是全部是NaN才刪除,

axis=1表示列,axis=0表示行

---直接刪除含有缺失值的行---df.dropna(axis=0,how=any/all)

b. 另一種處理方式為插補法(均值插補,中位數插補,回歸插補等)--fillna()

-----此案例中對數值型欄位均採用均值插補,其他文本型欄位填充為『其它』

6. 數據的增刪改查操作

a.數據的刪除:

--刪除指定索引的行/列,一種是在原有數據集中,另外一種是需新增數據塊,原有的不變

原有數據集中:

新增數據塊:

b.數據的排序:

---按照某個欄位進行升/降序排列--df.column.sort_values()

---- 對排序後的數據集重新建立索引--df.reset_index()

---- 對欄位進行排序處理--sort_index()

---- 根據索引對行數據進行排序--sort_index()

c. 數據的篩選:ix,icol,loc

---- 根據索引篩選某行數據:

---- 篩選某幾個欄位:

--- 根據行索引和列索引來篩選:

--- 按某個欄位的條件進行篩選--sort_values()

--- 按某個欄位的條件並根據欄位索引篩選數據:

---- 篩選案例中產地是英國和德國的數據--isin()

---- 補充:查看錶中的欄位,索引及值

7. 數據的分組,透視,計算及其他操作:

---按某個欄位分組並進行值的聚合運算:

--- 創建數據透視表:

--- 表的行列轉置:

----- 行索引和列索引的相互轉換:

--- 按行/列進行計算(數值型欄位):

--- 按行、列計算極差(max-min)--apply和lambda的用法

--- 根據某個欄位計算裡面的值出現的次數:

【數據可視化】

-----繪製箱線圖(描述數據的離散程度,可做異常值的分析):

---- 繪製直方圖(數據的分布):

---- 繪製散點圖(兩個數值型變數之間的關係):

今天的筆記就到這裡啦~~~後續會繼續補充^-^


推薦閱讀:

一個好用的ORM
量化策略系列教程:12Boll指標策略
2018年軟體測試行業預測,手工測試已死?
10行Python代碼的詞雲

TAG:Python | 數據分析 | 數據挖掘 |