你需要熟練運用的12個命令行工具
摘要: 本文簡要介紹了當前較為流行的12種對數據科學任務有價值的類Unix操作系統命令行工具:wget,cat,wc,head,tail,find,cut,uniq,awk,grep,sed,history。
這篇文章簡要介紹了十幾種用於數據科學任務的類Unix操作系統命令行工具。這些工具並不包括通用的文件管理命令(pwd,ls,mkdir,rm,...)或遠程會話管理工具(rsh,ssh,...),而是由對數據科學比較有用的實用程序組成,通常會涉及到不同程度的數據檢查和處理。這些工具都包含在一個典型的類Unix操作系統中。
這些都是公認的初級階段所需要使用的工具,你也可以在這個基礎上自行查找一些命令的例子。工具名稱的鏈接是維基百科對該工具的介紹,而不是工具手冊,在我看來,對於新手來說,維基百科要比工具手冊要更實用。
1.wget
wget是一個文件檢索工具,基本用法則是遠程下載文件。
2.cat
cat是對文件內容進行標準輸出。名稱來源於concatenate。用於將兩個文件組合在一起(實際連接)、將一個文件附加到另一個文件後、對文件行進行編號等等。
3.wc
wc用於生成字數、行數、位元組數與文本文件的相關內容。當選項為空時,wc默認輸出一行,從左到右分別是:行數、字數(每一行中沒有中斷的單個字元串被計為單個字)、字元數和文件名(多個)。
4.head
head將文件的前n行(默認為10)標準輸出。-n選項可以設置顯示的行數。
5.tail
tail用於輸出文件的尾部信息。
6. find
find用於搜索文件系統中的特定文件。
下圖中命令的含義:從當前目錄(「.」)開始搜索以「iris」開始、任意類型字元結尾(「-nameiris *」)、普通文件類型(「-type f「)的文件。
7.cut
cut用於從文件中提取文本中的一列。雖然提取出來的列可以使用各種標準進行製作,但cut可以用於從CSV文件中提取一部分數據。
下圖中命令的含義:使用逗號(「-d,」)作為欄位分隔符輸出iris.csv文件的第五列(「-f 5」)。
8.uniq
uniq檢查及刪除相同的行或列,將文本文件進行標準輸出。在命令行中構建管道時,這個命令可能會很有用:將一個命令的輸出送到另一個命令的輸入等。
下圖中命令的含義:列出iris數據集類名第五列重複的次數。
9.awk
awk實際上並不是一個「命令」,而是一種完整的編程語言。用於處理和提取文本,並且可以在命令行以單行命令調用。
掌握awk需要花費一些時間,但在此之前,這是它能夠簡單完成的一個示例。考慮到我們的示例文件iris.csv相當有限(尤其涉及到文本多樣性時),該行調用awk,在給定文件(「iris.csv」)內搜索字元串「setosa」 ,並逐一列印到標準輸出,並列印整行(保存在$ 0變數中)。
10. grep
grep是另一種文本處理工具,用於匹配字元串和正則表達式。
11. sed
sed是一個流編輯器,是另外一種文本處理和轉換工具,類似於awk。下圖中命令的含義:將iris.csv文件中「setosa」更改為「iris-setosa」。
12.history
history非常簡單,尤其是在你依賴於複製使用過的命令時,這個命令特別有用。
以上12個命令都是最基本的命令行工具,了解並熟悉其用法對你在數據科學的學習中大有用處。
以上為譯文。
本文由阿里云云棲社區組織翻譯。
文章原標題《Top 12 Essential Command Line Tools for Data Scientists》,譯者:Mags,審校:袁虎。
文章為簡譯,更為詳細的內容,請查看原文。
更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎
推薦閱讀:
※python爬蟲基礎之正則表達式的基本了解(一)
※Go語言中使用正則提取匹配的字元串
※正則表達式及其簡單應用-前端筆記
※好文配好圖:正則表達式RegExp