Python學習筆記--1
對目前學習Python作一個知識點小結(以』保溫杯的評價數據作案例『):
【數據導入】
先導入分析用的模塊:
導入csv文件:
除了csv文件,常用的還有Excel,SQL及txt文件,
Excel--->pd.read_excel (filename), 導入Excel文件時需載入』xlrd『包
SQL---->pd.read_sql (sql ,conn),導入前需載入』pymysql『包,sql參數為查詢的sql語句
conn = pymysql.connect (host=127.0.0.1, user=root, passwd=****,
db=****)
txt----->pd.read_table(filename, names=columns, sep = ***)
names為自定義的欄位名,sep為分隔符號
【數據整理清洗】
1. 更改中文欄位名為英文---df_columns
2. 數據瀏覽---df_info()
3. 數值型欄位的描述性統計---df_describe()
4. 欄位數據類型轉換:
---案例中將「score_」的三個欄位轉成Float格式---df.convert_objects
5. 缺失值處理:
a. 缺失值一種處理辦法是直接刪除:
---直接刪除含有缺失值的欄位---df.dropna(axis=1,how=any/all)
any是只要有一個是NaN就刪除,all是全部是NaN才刪除,
axis=1表示列,axis=0表示行
---直接刪除含有缺失值的行---df.dropna(axis=0,how=any/all)
b. 另一種處理方式為插補法(均值插補,中位數插補,回歸插補等)--fillna()
-----此案例中對數值型欄位均採用均值插補,其他文本型欄位填充為『其它』
6. 數據的增刪改查操作
a.數據的刪除:
--刪除指定索引的行/列,一種是在原有數據集中,另外一種是需新增數據塊,原有的不變
原有數據集中:
新增數據塊:
b.數據的排序:
---按照某個欄位進行升/降序排列--df.column.sort_values()
---- 對排序後的數據集重新建立索引--df.reset_index()
---- 對欄位進行排序處理--sort_index()
---- 根據索引對行數據進行排序--sort_index()
c. 數據的篩選:ix,icol,loc
---- 根據索引篩選某行數據:
---- 篩選某幾個欄位:
--- 根據行索引和列索引來篩選:
--- 按某個欄位的條件進行篩選--sort_values()
--- 按某個欄位的條件並根據欄位索引篩選數據:
---- 篩選案例中產地是英國和德國的數據--isin()
---- 補充:查看錶中的欄位,索引及值
7. 數據的分組,透視,計算及其他操作:
---按某個欄位分組並進行值的聚合運算:
--- 創建數據透視表:
--- 表的行列轉置:
----- 行索引和列索引的相互轉換:
--- 按行/列進行計算(數值型欄位):
--- 按行、列計算極差(max-min)--apply和lambda的用法
--- 根據某個欄位計算裡面的值出現的次數:
【數據可視化】
-----繪製箱線圖(描述數據的離散程度,可做異常值的分析):
---- 繪製直方圖(數據的分布):
---- 繪製散點圖(兩個數值型變數之間的關係):
今天的筆記就到這裡啦~~~後續會繼續補充^-^
推薦閱讀:
※一個好用的ORM
※量化策略系列教程:12Boll指標策略
※2018年軟體測試行業預測,手工測試已死?
※10行Python代碼的詞雲