Python 數據分析(三):數據的導入導出

上一節我們講了向量計算:曾革:Python 數據分析(二):向量計算,這一節我們開始講數據的處理。

一、首先看怎麼導入數據

常見的數據存儲形式有 CSV,Excel,TXT 以及資料庫等,我們一個個看。

1,使用 read_csv 函數導入 CSV 文件

語法:read_csv(file, encoding), file 指文件路徑,需要注意的是如果導入中文,則 encoding 需要設置為 UTF-8。

CSV 是帶表頭的,表頭就是第一行的數據,在這裡是『age, name』,演示如下:

2,使用 read_table 導入普通文本文件

語法:read_table(file, names=[列名1,列名2, ...], sep=,encoding,...)

各參數表述的意思:

file, 是文件路徑;

names ,是列名,默認文件中的第一行作為列名;

ep, 是分隔符,默認為空,表示默認導入為一列;

encoding 是設置編碼用的,同樣需要注意的是在導入中文的時候需要設置為 UTF-8。

特別需要注意的是,如果文件名帶有中文,出現異常時可以再加一個參數 engine=python 來嘗試解決。

注意普通的 TXT 文件是不帶表頭的,所以默認會把第一行作為表頭,這樣會導致我們的數據缺失一行,如下:

所以正確的用法是設置好 names 和 sep 參數,如下:

3,使用 read_excel函數導入 Excel 文件

語法: read_excel(filename, sheetname, names), 各個參數的意思如下:

filename,是文件路徑,

sheetname,Sheet的名字

names,列名,默認為文件中的第一行

二,數據導出

我們可以使用 to_csv函數導出文本文件。語法如下:to_csv(filePath, sep=,,index=TRUE, header=TRUE), 同樣的我們來看看各個參數,

filePath 是導出的文件路徑

sep 是分隔符,默認為逗號(",")

index,是否導出行序號,默認為 TRUE

header,是否導出列名,默認為TRUE

打開文件,發現文件裡面的內容是這樣的,自帶了索引:

所以我們需要加上 index = False 來去掉這個索引:

以上就是數據的導入導出,接下來我們的內容涉及到數據的處理等知識。


推薦閱讀:

Python · SVM(四)· SMO 演算法
第十四章 Python即時網路爬蟲:API說明—下載內容提取器
python生成器處理大文本文件的代碼
Pipeline語法支持,還是flowpython

TAG:Python | 數據分析 | 數據挖掘 |