使用 Python 實現文件遞歸遍歷的 3 種方式

使用 Python 實現文件遞歸遍歷的 3 種方式

來自專欄 sylan215

今天有個腳本需要遍歷獲取某指定文件夾下面的所有文件,我記得很早前也實現過文件遍歷和目錄遍歷的功能,於是找來看一看,嘿,不看不知道,看了嚇一跳,原來之前我竟然用了這麼搓的實現。

先發出來看看:

def getallfiles(dir):"""遍歷獲取指定文件夾下面所有文件""" if os.path.isdir(dir): filelist = os.listdir(dir) for ret in filelist: filename = dir + "\" + ret if os.path.isfile(filename): print filename def getalldirfiles(dir, basedir):"""遍歷獲取所有子文件夾下面所有文件""" if os.path.isdir(dir): getallfiles(dir) dirlist = os.listdir(dir) for dirret in dirlist: fullname = dir + "\" + dirret if os.path.isdir(fullname): getalldirfiles(fullname, basedir)

我是用了 2 個函數,並且每個函數都用了一次 listdir,只是一次用來過濾文件,一次用來過濾文件夾,如果只是從功能實現上看,一點問題沒有,但是這…太不優雅了吧。

開始著手優化,方案一:

def getallfiles(dir):"""使用listdir循環遍歷""" if not os.path.isdir(dir): print dir return dirlist = os.listdir(dir) for dirret in dirlist: fullname = dir + "\" + dirret if os.path.isdir(fullname): getallfiles(fullname) else: print fullname

從上圖可以看到,我把兩個函數合併成了一個,只調用了一次 listdir,把文件和文件夾用 if~else~ 進行了分支處理,當然,自我調用的循環還是存在。

有木有更好的方式呢?網上一搜一大把,原來有一個現成的 os.walk() 函數可以用來處理文件(夾)的遍歷,這樣優化下就更簡單了。

方案二:

def getallfilesofwalk(dir):"""使用listdir循環遍歷""" if not os.path.isdir(dir): print dir return dirlist = os.walk(dir) for root, dirs, files in dirlist: for file in files: print os.path.join(root, file)

只是從代碼實現上看,方案二是最優雅簡潔的了,但是再翻看 os.walk() 實現的源碼就會發現,其實它內部還是調用的 listdir 完成具體的功能實現,只是它對輸出結果做了下額外的處理而已。

附上os.walk()的源碼:

from os.path import join, isdir, islink# We may not have read permission for top, in which case we cant# get a list of the files the directory contains. os.path.walk# always suppressed the exception then, rather than blow up for a# minor reason when (say) a thousand readable directories are still# left to visit. That logic is copied here.try: # Note that listdir and error are globals in this module due # to earlier import-*. names = listdir(top)except error, err: if onerror is not None: onerror(err) return dirs, nondirs = [], []for name in names: if isdir(join(top, name)): dirs.append(name) else: nondirs.append(name) if topdown: yield top, dirs, nondirsfor name in dirs: path = join(top, name) if followlinks or not islink(path): for x in walk(path, topdown, onerror, followlinks): yield xif not topdown: yield top, dirs, nondirs

至於 listdir 和 walk 在輸出時的不同點,主要就是 listdir 默認是按照文件和文件夾存放的字母順序進行輸出,而 walk 則是先輸出頂級文件夾,然後是頂級文件,再輸出第二級文件夾,以及第二級文件,以此類推,具體大家可以把上面腳本拷貝後自行驗證。

以上,如果覺得有用,請幫忙轉發分享,不甚感激。

推薦閱讀:

遞歸函數(二):編寫遞歸函數的思路和技巧
遞歸:夢中夢
具體數學-第2課(成套方法求解遞歸式)
具體數學-第1課(遞歸求解實際問題)
POJ 2694:逆波蘭表達式

TAG:遞歸 | 演算法 | Python |