Python 數據分析(三):數據的導入導出
上一節我們講了向量計算:曾革:Python 數據分析(二):向量計算,這一節我們開始講數據的處理。
一、首先看怎麼導入數據
常見的數據存儲形式有 CSV,Excel,TXT 以及資料庫等,我們一個個看。
1,使用 read_csv 函數導入 CSV 文件
語法:read_csv(file, encoding), file 指文件路徑,需要注意的是如果導入中文,則 encoding 需要設置為 UTF-8。
CSV 是帶表頭的,表頭就是第一行的數據,在這裡是『age, name』,演示如下:
2,使用 read_table 導入普通文本文件
語法:read_table(file, names=[列名1,列名2, ...], sep=,encoding,...)
各參數表述的意思:
file, 是文件路徑;
names ,是列名,默認文件中的第一行作為列名;
ep, 是分隔符,默認為空,表示默認導入為一列;
encoding 是設置編碼用的,同樣需要注意的是在導入中文的時候需要設置為 UTF-8。
特別需要注意的是,如果文件名帶有中文,出現異常時可以再加一個參數 engine=python 來嘗試解決。
注意普通的 TXT 文件是不帶表頭的,所以默認會把第一行作為表頭,這樣會導致我們的數據缺失一行,如下:
所以正確的用法是設置好 names 和 sep 參數,如下:
3,使用 read_excel函數導入 Excel 文件
語法: read_excel(filename, sheetname, names), 各個參數的意思如下:
filename,是文件路徑,
sheetname,Sheet的名字
names,列名,默認為文件中的第一行
二,數據導出
我們可以使用 to_csv函數導出文本文件。語法如下:to_csv(filePath, sep=,,index=TRUE, header=TRUE), 同樣的我們來看看各個參數,
filePath 是導出的文件路徑
sep 是分隔符,默認為逗號(",")
index,是否導出行序號,默認為 TRUE
header,是否導出列名,默認為TRUE
打開文件,發現文件裡面的內容是這樣的,自帶了索引:
所以我們需要加上 index = False 來去掉這個索引:
以上就是數據的導入導出,接下來我們的內容涉及到數據的處理等知識。
推薦閱讀:
※Python · SVM(四)· SMO 演算法
※第十四章 Python即時網路爬蟲:API說明—下載內容提取器
※python生成器處理大文本文件的代碼
※Pipeline語法支持,還是flowpython