解讀 C# 中的正則表達式

06-25

解讀 C# 中的正則表達式

第 1 頁解讀 C# 中的正則表達式

第 2 頁常用表達式

　　多少年來，許多的編程語言和工具都包含對正則表達式的支持，.NET基礎類庫中包含有一個名字空間和一系列可以充分發揮規則表達式威力的類，而且它們也都與未來的Perl 5中的規則表達式兼容。　　此外，regexp類還能夠完成一些其他的功能，例如從右至左的結合模式和表達式的編輯等。　　在這篇文章中，我將簡要地介紹System.Text.RegularExpression中的類和方法、一些字元串匹配和替換的例子以及組結構的詳細情況，最後，還會介紹一些你可能會用到的常見的表達式。應該掌握的基礎知識

　　規則表達式的知識可能是不少編程人員「常學常忘」的知識之一。在這篇文章中，我們將假定你已經掌握了規則表達式的用法，尤其是Perl 5中表達式的用法。.NET的regexp類是Perl 5中表達式的一個超集，因此，從理論上說它將作為一個很好的起點。我們還假設你具有了C#的語法和.NET架構的基本知識。　　如果你沒有規則表達式方面的知識，我建議你從Perl 5的語法著手開始學習。在規則表達式方面的權威書籍是由傑弗里·弗雷德爾編寫的《掌握表達式》一書，對於希望深刻理解表達式的讀者，我們強烈建議閱讀這本書。 RegularExpression組合體

　　regexp規則類包含在System.Text.RegularExpressions.dll文件中，在對應用軟體進行編譯時你必須引用這個文件，例如：

csc r:System.Text.RegularExpressions.dll foo.cs

命令將創建foo.exe文件，它就引用了System.Text.RegularExpressions文件。名字空間簡介

　　在名字空間中僅僅包含著6個類和一個定義，它們是：　　Capture: 包含一次匹配的結果；　　CaptureCollection: Capture的序列；　　Group: 一次組記錄的結果，由Capture繼承而來；　　Match: 一次表達式的匹配結果，由Group繼承而來；　　MatchCollection: Match的一個序列；　　MatchEvaluator: 執行替換操作時使用的代理；　　Regex: 編譯後的表達式的實例。

　　Regex類中還包含一些靜態的方法：

　　Escape: 對字元串中的regex中的轉義符進行轉義；　　IsMatch: 如果表達式在字元串中匹配，該方法返回一個布爾值；　　Match: 返回Match的實例；　　Matches: 返回一系列的Match的方法；　　Replace: 用替換字元串替換匹配的表達式；　　Split: 返回一系列由表達式決定的字元串；　　Unescape:不對字元串中的轉義字元轉義。簡單匹配

　　我們首先從使用Regex、Match類的簡單表達式開始學習。 Match m = Regex.Match("abracadabra", "(a|b|r)+"); 我們現在有了一個可以用於測試的Match類的實例，例如：if (m.Success)... 如果想使用匹配的字元串，可以把它轉換成一個字元串： Console.WriteLine("Match="+m.ToString()); 這個例子可以得到如下的輸出: Match=abra。這就是匹配的字元串了。字元串的替換

　　簡單字元串的替換非常直觀。例如下面的語句： string s = Regex.Replace("abracadabra", "abra", "zzzz");它返回字元串zzzzcadzzzz，所有匹配的字元串都被替換成了zzzzz。

　　現在我們來看一個比較複雜的字元串替換的例子： string s = Regex.Replace(" abra ", @"^s*(.*?)s*$", "$1"); 這個語句返回字元串abra，其前導和後綴的空格都去掉了。上面的模式對於刪除任意字元串中的前導和後續空格都非常有用。在C#中，我們還經常使用字母字元串，在一個字母字元串中，編譯程序不把字元「」作為轉義字元處理。在使用字元「」指定轉義字元時，@"..."是非常有用的。另外值得一提的是$1在字元串替換方面的使用，它表明替換字元串只能包含被替換的字元串。匹配引擎的細節

　　現在，我們通過一個組結構來理解一個稍微複雜的例子。看下面的例子： string text = "abracadabra1abracadabra2abracadabra3"; 　　string pat = @" 　　　　( # 第一個組的開始　　　　 abra # 匹配字元串abra 　　　　 ( # 第二個組的開始　　　　 cad # 匹配字元串cad 　　　　 )? # 第二個組結束（可選）　　　　) # 第一個組結束　　　　+ # 匹配一次或多次　　　　"; 　　//利用x修飾符忽略注釋　　Regex r = new Regex(pat, "x"); 　　//獲得組號碼的清單　　int[] gnums = r.GetGroupNumbers(); 　　//首次匹配　　Match m = r.Match(text); 　　while (m.Success) 　　 { 　　//從組1開始　　 for (int i = 1; i < gnums.Length; i++) 　　　　{ 　　　　Group g = m.Group(gnums[i]); 　　//獲得這次匹配的組　　　　Console.WriteLine("Group"+gnums[i]+"=["+g.ToString()+"]"); 　　//計算這個組的起始位置和長度　　　　CaptureCollection cc = g.Captures; 　　　　for (int j = 0; j < cc.Count; j++) 　　　　 { 　　　　 Capture c = cc[j]; 　　　　 Console.WriteLine(" Capture" + j + "=["+c.ToString() 　　　　　　 + "] Index=" + c.Index + " Length=" + c.Length); 　　　　 } 　　　　} 　　//下一個匹配　　 m = m.NextMatch(); 　　 }這個例子的輸出如下所示：　　　　　　　Group1=[abra] 　　　　　　Capture0=[abracad] Index=0 Length=7 　　　　　　Capture1=[abra] Index=7 Length=4 　　Group2=[cad] 　　　　　　Capture0=[cad] Index=4 Length=3 　　Group1=[abra] 　　　　　　Capture0=[abracad] Index=12 Length=7 　　　　　　Capture1=[abra] Index=19 Length=4 　　Group2=[cad] 　　　　　　Capture0=[cad] Index=16 Length=3 　　Group1=[abra] 　　　　　　Capture0=[abracad] Index=24 Length=7 　　　　　　Capture1=[abra] Index=31 Length=4 　　Group2=[cad] 　　　　　　Capture0=[cad] Index=28 Length=3

　　我們首先從考查字元串pat開始，pat中包含有表達式。第一個capture是從第一個圓括弧開始的，然後表達式將匹配到一個abra。第二個capture組從第二個圓括弧開始，但第一個capture組還沒有結束，這意味著第一個組匹配的結果是abracad ，而第二個組的匹配結果僅僅是cad。因此如果通過使用？符號而使cad成為一項可選的匹配，匹配的結果就可能是abra或abracad。然後，第一個組就會結束，通過指定+符號要求表達式進行多次匹配。　　現在我們來看看匹配過程中發生的情況。首先，通過調用Regex的 constructor方法建立表達式的一個實例，並在其中指定各種選項。在這個例子中，由於在表達式中有注釋，因此選用了x選項，另外還使用了一些空格。打開x選項，表達式將會忽略注釋和其中沒有轉義的空格。　　然後，取得表達式中定義的組的編號的清單。你當然可以顯性地使用這些編號，在這裡使用的是編程的方法。如果使用了命名的組，作為一種建立快速索引的途徑這種方法也十分有效。接下來是完成第一次匹配。通過一個循環測試當前的匹配是否成功，接下來是從group 1開始重複對組清單執行這一操作。在這個例子中沒有使用group 0的原因是group 0是一個完全匹配的字元串，如果要通過收集全部匹配的字元串作為一個單一的字元串，就會用到group 0了。　　我們跟蹤每個 group中的CaptureCollection。通常情況下每次匹配、每個group中只能有一個capture，但本例中的Group1則有兩個 capture：Capture0和Capture1。如果你僅需要Group1的ToString，就會只得到abra，當然它也會與abracad匹配。組中ToString的值就是其CaptureCollection中最後一個Capture的值，這正是我們所需要的。如果你希望整個過程在匹配 abra後結束，就應該從表達式中刪除+符號，讓regex引擎知道我們只需要對表達式進行匹配。基於過程和基於表達式方法的比較

　　一般情況下，使用規則表達式的用戶可以分為以下二大類：第一類用戶盡量不使用規則表達式，而是使用過程來執行一些需要重複的操作；第二類用戶則充分利用規則表達式處理引擎的功能和威力，而儘可能少地使用過程。　　對於我們大多數用戶而言，最好的方案莫過於二者兼而用之了。我希望這篇文章能夠說明.NET語言中regexp類的作用以及它在性能和複雜性之間的優、劣點。基於過程的模式

　　我們在編程中經常需要用到的一個功能是對字元串中的一部分進行匹配或其他一些對字元串處理，下面是一個對字元串中的單詞進行匹配的例子：

string text = "the quick red fox jumped over the lazy brown dog."; 　　System.Console.WriteLine("text=[" + text + "]"); 　　string result = ""; 　　string pattern = @"w+|W+"; 　　foreach (Match m in Regex.Matches(text, pattern)) 　　 { 　　// 取得匹配的字元串　　 string x = m.ToString(); 　　// 如果第一個字元是小寫　　 if (char.IsLower(x[0])) 　　// 變成大寫　　　　x = char.ToUpper(x[0]) + x.Substring(1, x.Length-1); 　　// 收集所有的字元　　 result += x; 　　 } 　　System.Console.WriteLine("result=[" + result + "]");　　正象上面的例子所示，我們使用了C#語言中的foreach語句處理每個匹配的字元，並完成相應的處理，在這個例子中，新創建了一個result字元串。這個例子的輸出所下所示：　　text=[the quick red fox jumped over the lazy brown dog.] 　　result=[The Quick Red Fox Jumped Over The Lazy Brown Dog.] 基於表達式的模式

　　完成上例中的功能的另一條途徑是通過一個MatchEvaluator，新的代碼如下所示： static string CapText(Match m) 　　　　{ 　　//取得匹配的字元串　　　　string x = m.ToString(); 　　// 如果第一個字元是小寫　　　　if (char.IsLower(x[0])) 　　// 轉換為大寫　　　　 return char.ToUpper(x[0]) + x.Substring(1, x.Length-1); 　　　　return x; 　　　　} 　　　　　　 static void Main() 　　　　{ 　　　　string text = "the quick red fox jumped over the 　　　　 lazy brown dog."; 　　　　System.Console.WriteLine("text=[" + text + "]"); 　　　　string pattern = @"w+"; 　　　　string result = Regex.Replace(text, pattern, 　　 new MatchEvaluator(Test.CapText)); 　　　　System.Console.WriteLine("result=[" + result + "]"); 　　　　}　　同時需要注意的是，由於僅僅需要對單詞進行修改而無需對非單詞進行修改，這個模式顯得非常簡單。

出處：藍色理想責任編輯：風狗