0基礎學Python之二十二:文件操作(下)
來自專欄可樂編程0基礎學Python之二十二:文件操作(下)
Hi 大家好,我是王可樂,歡迎回到我們的零基礎學 Python 課程。今天我們繼續來聊文件的話題。
上一節課中,我們已經看到了如何使用 Python 來按行讀取一個文本文件。我們再來看一下這段代碼,打開文件 read_file.py。
f = open(rC:colecode
ead_file.py, r)for l in f.readlines(): print(l, end=)f.close()
我們看到,這裡的變數 f 是一個用 open() 函數返回的文件對象。我們使用 f 的 readlines() 函數來按照行讀取整個文件,返回一個行的列表。實際上,文件對象 f 還支持更多的讀取操作,例如,和 readlines() 函數類似的還有一個叫做 readline() 的函數,它一次只讀取並返迴文件的一行。我們打開一個 Python Shell 來演示一下:
>>> f = open(rC:colecode
ead_file.py, r) # 調用 open() 函數打開文件>>> l = f.readline()>>> l"f = open(rC:colecode
ead_file.py, r)
" # 可以看到,變數 l 是一個字元串,內容是我們打開的源碼文件的第一行,並且結尾由一個換行符
readline() 函數可以反覆調用,每次調用時都會返迴文件的下一行。我們來看一下:
>>> l = f.readline() # 我們再次調用f.readline(),還是賦值給變數 l>>> lfor l in f.readlines():
# 這時 l 被賦值成了文件的第二行>>> l = f.readline() # 再來調用一次>>> l" print(l, end=)
" # 變成了第三行>>> l = f.readline()>>> lf.close()
# 這時已經讀取出來了第四行,也就是最後一行>>> l = f.readline() # 如果繼續調用 f.readline() 呢?>>> l # 我們發現,這時 l 成了一個空字元串
大家可以再試一試,文件讀取完畢之後,無論怎麼繼續調用 readline(),都只會返回空字元串了。
我們看到,每次調用 readline() 時,它都知道上次我們讀到了文件的哪個位置,然後給我們返回下一行。這是因為,文件對象 f 中保存了一個叫做文件指針的東西。
在計算機系統中,文件往往被抽象成數據流的形狀。對於文本文件,我們可以把它理解成一個字元組成的數據流,一個文本文件就可以看作是一串從前往後排列的字元。而文件指針的作用就是指向文件的數據流上某一個位置,作為當前讀操作的開始位置。我們可以使用文件對象的 tell() 函數來查看當前文件指針的位置。
>>> f.close() # 我們養成良好的習慣,先關閉文件 f>>> f = open(rC:colecode
ead_file.py, r) # 然後我們重新打開它>>> f.tell()0 # 返回 0,對於剛剛打開的文件,它的文件指針就指向 0 位置>>> l = f.readline() # 輸入 f.readline() 讀取一行,保存到變數 l>>> l"f = open(rC:colecode
ead_file.py, r)
" # 輸出第一行>>> f.tell() # 然後我們再來看一下文件指針的位置44 # 可以看到,這時文件指針已經指向了位置 44>>> len(l) # 我們來看一下剛剛讀取的文件第一行的長度43 # 返回43
可以看到,這裡的文件指針採用的是以字元為單位的位置。我們調用 readline() 讀取了長度為 43 的一行之後,文件指針就從 0 變成了 44,指向了第 45 個字元,也就是第二行的第一個字元。為什麼 l 中保存的字元串的長度是43,而指針卻指向第45個字元呢?原因其實是,在windows 中,一行文本是以兩個特殊字元結尾的「
」,即,遇到這兩個字元則意味著文本換行。但是在Linux和Mac下,一行文本是以「
」結尾的。這兩一來,如果一個文本文件被跨系統使用,在處理上會有一些小問題。Python 3的文件處理,會自動按照Linux和Mac下的方式來做,所以l中的這行文本,在讀入時,
這個特殊符號被自動去掉了。所以事實上這個文本的第一行其實應該有44個字元,所以文件指針才指向了第45個字元。
我們也可以人為修改文件指針的位置,Python 提供了 seek() 函數來實現這個功能。例如,剛剛讀取了一行之後,文件指針指向了 44(第45個字元):
>>> f.seek(2) # 我們輸入 f.seek(2),將文件指針改為 2>>> f.readline() # 然後我們再來試一試讀取一行"= open(rC:\colecode\read_file.py, r)
"
可以看到,這時我們又讀取了一遍第一行,只是少了前兩個字元。因為 seek(2) 把文件指針改為了 2,也就指向了第三個字元,就是等號。
看到這裡,可樂請大家暫停視頻想一想,如果換用 readline() 函數來代替 readlines() 函數,該如何改寫上一節課讀取文件的例子呢?
好了,可樂假設大家已經思考過這個問題了,我們來看下面這段代碼:
with open(rC:colecode
ead_file.py, r) as f: while True: l = f.readline() if l == : break print(l, end=)
這裡,可樂換用了一個 while 循環來反覆調用 readline() 函數。當 readline() 函數返回空字元串時,我們使用 break 跳出循環,結束程序,否則我們列印讀到的行。
和 readlines() 函數類似,文件對象還支持 read() 這個函數。它也是讀取全部文件內容,但是 readlines() 將整個文件按行切分成一個字元串的列表,而 read() 則只返回一個單獨的字元串,包含文件的全部內容。此外,readlines() 函數和 read() 函數在執行一次之後,都會把文件指針指向文件最後,因此如果不使用 seek() 修改文件指針,那麼重複執行這兩個函數就只能得到一個空列表或者空字元串了。最後,以上這些 read 系列的函數都支持一個可選的參數,可以指定每次讀取的最大字元個數。這些內容可樂就不為大家一一演示了,希望大家在自己的 Python Shell 裡面試一下,多多實踐,多多查閱文檔。
可以讀取文件,Python 自然也可以寫入文件。我們照例先來看一個例子:
with open(rC:colecodewrite_test.txt, w) as f: num_chars = f.write(Hello world!
) print(Wrote {} chars.format(num_chars))
和讀取文件類似,寫入文件之前,也需要使用 open() 函數來創建一個文件對象,因此也支持使用 with 上下文管理器的寫法。
不同的地方是,讀取文件時我們給 open() 函數傳遞的第二個參數是 r,也就是以只讀模式打開,以只讀模式打開的文件只能被讀取;與之相對的是,這裡我們為 open() 函數傳遞了參數 w,就是以所謂"只寫"的模式打開文件,這時我們的文件對象 f 上就只能做寫入操作。如果在只寫模式打開的文件對象上試圖調用 read() 等函數,那麼 Python 就會報錯;反過來如果在只讀模式打開的文件對象上試圖調用 write() 函數,也會報錯。
除了 r, w 這兩種模式之外,Python 的 open() 函數還支持 r+, a 模式。其中,以 r+ 模式打開的文件對象即可以進行讀操作,也可以進行寫操作;而以 a 模式,也就是 append 模式打開的文件對象也是一種只寫模式。append 只寫模式與 w 只寫模式的區別在於,w 模式打開文件時,文件指針默認為 0,如果文件已經有內容,則新寫入的內容會覆蓋原有的內容;而 append 模式打開的文件對象,其文件指針位於已有內容的末尾,新寫入的內容會寫到文件後部,特別適合向文件內部追加內容。
此外,打開模式 r, w, r+, a 後面都支持一個 b 標記,也就是模式 rb, wb, r+b 或者 ab。我們前面的代碼里,默認 Python 是以文本模式打開的文件,文本模式適合文本文件的讀寫,例如在不同的操作系統平台上,Python 會自動識別行尾應該用
還是
。而 b 標記位表示以二進位模式打開文件,這種模式適合所有非文本文件的讀寫。實踐中直接進行二進位文件讀寫的情況比較少,因此在我們的初級課程中可樂就不涉及這些內容了。
好了,講了這麼多打開模式,我們回來看看打開文件之後的操作。這裡,我們只是用 write() 函數向文件中寫入了一行字元 Hello world!,並且在最後添加了一個換行符
。write() 函數會返回寫入文件的字元數,我們把它保存在變數 num_chars 裡面,最後列印出來。
除了 write() 函數,Python 中還支持 writelines() 函數。這個函數和前面的 readlines() 函數剛好相反,它把一個列表一行一行地寫入文件中去。這次我們來使用 Python Shell 演示一下:
>>> line_list = [line 1
, line 2
, line 3
] # 定義一個字元串的列表,注意這裡的每個字元串後面都帶有換行符
,因為 writelines() 函數寫文件時並不會自動為每行添加換行符>>> f = open(rC:colecodewrite_test.txt, w) # 然後,我們打開一個文件,模式為只寫模式>>> f.writelines(line_list) # 最後,我們把列表寫入文件
然後,請大家打開自己的 C 盤 colecode 文件夾,看看裡面是不是已經多了一個 write_test.txt 文件了?讓我們打開來看一下。什麼?文件里竟然什麼內容都沒有。我們剛剛寫入的三行字元串哪裡去了呢?
這裡,可樂需要給大家解釋一個新的概念,叫做帶緩衝的讀寫。我們知道,一般我們都把文件保存在磁碟等慢速讀寫設備上,這裡的慢速是指相對於內存而言,硬碟等設備的讀寫速度實在是太慢了。由於內存的讀寫速度要快很多,因此程序把要寫入文件的內容先寫入內存,然後再由操作系統慢慢寫入磁碟,對於程序而言效率就會高很多。這裡我們用於暫存讀寫數據的內存區域,就叫做緩衝區,也叫緩存。除了上面的原因,硬碟這種設備每次讀寫一小塊一小塊的數據效率較低,而一次性讀寫一大塊的文件則效率較高,所以在內存中先把數據攢起來,最後一批一批寫入也是比較划算的。
Python 在寫文件時默認就使用帶內存緩衝的寫入模式。因此我們剛剛調用 writelines() 函數之後,列表數據只是被寫入了緩衝區。Python 會在緩衝區要滿了,或者文件對象關閉時再將這些內容寫入文件。如果我們想立刻將緩衝區內的內容寫入文件,那麼可以使用 flush() 函數,主動將緩衝區數據刷入磁碟,這樣就能夠立刻看到寫入效果了。此外,調用 close() 函數關閉文件也可以觸發 flush 操作。我們接著剛才的 Shell 示例演示一下:
>>> f.flush() # 調用 f.flush() 函數>>> f.close() # 然後我們養成好習慣,關閉這個文件,實際上直接關閉文件也會起到 flush() 的作用,這裡可樂都為大家演示一下
OK,我們重新打開 write_test.txt 這個文件,看看是不是已經寫入了三行數據了呢?
好了,文件讀寫的內容就先介紹這麼多,Python 的文件對象還支持很多其他的操作函數。可樂希望大家不僅能跟著可樂的課程來練習,也能查閱文檔熟悉更多我們沒能講到的內容,這樣才能更快地進步哦。
這節課的最後,可樂再給大家介紹一個關於文件路徑的操作。在前面的例子中,我們忽略了一個問題,就是文件和目錄存在不存在的問題。我們來看個例子:
>>> f = open(rC:colecode
ot_exist.txt, r) # 首先我們嘗試打開一個不存在的文件Traceback (most recent call last): File "<stdin>", line 1, in <module>FileNotFoundError: [Errno 2] No such file or directory: C:colecode
ot_exist.txt>>> # 我們看到,Python 報了一個錯誤說文件不存在>>> f = open(rC:colecode
ot_exist.txt, w) # 而如果我們用 w 模式打開不存在的文件,我們看到這次沒有報錯,這時 Python 會自動為我們創建這個文件>>> # 不過,如果文件前面的目錄,也就是文件夾也不存在呢?>>> f = open(rC:colecodeend_of_the_universedinner.txt, w) #這裡 end_of_the_universe 是一個不存在的目錄Traceback (most recent call last): File "<stdin>", line 1, in <module>FileNotFoundError: [Errno 2] No such file or directory: C:colecodeend_of_the_universedinner.txt>>> # 這一次,Python 又報錯了呢,看來可樂在宇宙盡頭吃晚飯的願望不幸落空了
從這些例子里我們可以看到,open() 函數可以比較好地處理文件不存在的問題,但是不能處理路徑中目錄不存在的問題。這裡,可樂為大家簡單介紹下 Python 的另一個內置模塊 os,我們還是先來演示一下:
>>> import os # 首先,我們還是引入這個模塊>>> os.path.exists(rC:colecodeend_of_the_universe\) # 然後,我們來檢驗一下 end of the universe 這個目錄是否存在False # 返回 False
注意,在windows中,由於目錄分割使用反斜杠「」,所以在表示目錄時很容易出現轉義的問題,比如在這裡表示目錄時,雖然已經在目錄名前使用「r」,結尾必須用兩個反斜杠"",否則python shell會認為字元串沒有結束。下面的例子中也是一樣。
這裡,我們使用了 os 模塊的子模塊 path 提供的函數 exists,來檢驗目錄是否存在。它返回了 False,說明這個目錄目前不存在。那麼,我們來創建一下這個目錄,也就是大家熟悉的新建一個文件夾:
>>> os.makedirs(rC:colecodeend_of_the_universe
estaurant\)
這裡,我們使用 os 模塊提供的 makedirs() 函數,在 colecode 目錄下創建了 end of the universe 目錄,並且在裡面又創建了 restaurant 這個子目錄。我們打開的 C 盤 colecode 這個目錄看一下,可以看到,我們已經成功創建了剛才不存在的目錄了。
因此,在不確定目錄是否存在時,我們就可以先使用 path 的 exists() 函數來檢查一下。如果發現目錄不存在,那麼就用 makedirs() 函數來創建,之後再使用 open() 函數在內部創建文件。不過,makedirs() 函數還有一個更好的參數,我們可以來看一下:
>>> os.makedirs(rC:colecodeend_of_the_universe
estaurant\) # 首先,我們把剛剛輸入過的命令再次輸入一遍Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Us...ython3.6/os.py", line 220, in makedirs mkdir(name, mode)FileExistsError: [Errno 17] File exists: C:cole...urant
可以看到,在全部目錄都已經存在的情況下,調用 makedirs() 就會報一個錯,說目錄已經存在,不能再創建了。我們可以使用 makedirs() 的 exist_ok 參數來調整這個行為:
>>> os.makedirs(rC:colecodeend_of_the_universe
estaurant\, exist_ok=True) # 輸入,念代碼,傳入 exist_ok 參數,賦值為 True
可以看到,這此 makedirs() 函數就沒有再報錯了。因此,如果我們在寫文件之前不確定目錄是否存在,就可以只使用 makedirs() 函數來嘗試創建目錄。如果目錄存在,那麼也不會有什麼問題;如果目錄不存在,我們也會創建它。
除此之外,os 模塊還提供了很多操作系統相關的工具函數,特別是 os.path 子模塊里,包含了很多於目錄相關的操作功能。我們在這裡只是演示了 os 模塊的一個小小的功能,更多高級的功能可樂會放在以後的課程中再為大家講解。
好了,今天的內容有點長,我們就先聊到這裡。學完了這些內容,你就可以輕鬆地使用 Python 讀取、寫入文本文件了。希望大家能夠多多練習,可樂也鼓勵大家多多查閱文檔,這樣才能快速進步哦。
在下一節課里,可樂會繼續文件和數據的話題,為大家介紹一種編程時非常有用的數據表示格式,JSON,敬請期待哦。如果你喜歡我們的課程,歡迎關注我們的公眾號「可樂編程」,同時也請轉發給你的朋友們哦。可樂感謝大家的支持,我們下次課再見!
推薦閱讀: