【Python3網路爬蟲開發實戰】3.3-正則表達式
本節中,我們看一下正則表達式的相關用法。正則表達式是處理字元串的強大工具,它有自己特定的語法結構,有了它,實現字元串的檢索、替換、匹配驗證都不在話下。
當然,對於爬蟲來說,有了它,從HTML里提取想要的信息就非常方便了。
1. 實例引入
說了這麼多,可能我們對它到底是個什麼還是比較模糊,下面就用幾個實例來看一下正則表達式的用法。
打開開源中國提供的正則表達式測試工具http://tool.oschina.net/regex/,輸入待匹配的文本,然後選擇常用的正則表達式,就可以得出相應的匹配結果了。例如,這裡輸入待匹配的文本如下:
Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is http://cuiqingcai.com.
這段字元串中包含了一個電話號碼和一個電子郵件,接下來就嘗試用正則表達式提取出來,如圖3-10所示。
圖3-10 運行頁面
在網頁右側選擇「匹配Email地址」,就可以看到下方出現了文本中的E-mail。如果選擇「匹配網址URL」,就可以看到下方出現了文本中的URL。是不是非常神奇?
其實,這裡就是用了正則表達式匹配,也就是用一定的規則將特定的文本提取出來。比如,電子郵件開頭是一段字元串,然後是一個@符號,最後是某個域名,這是有特定的組成格式的。另外,對於URL,開頭是協議類型,然後是冒號加雙斜線,最後是域名加路徑。
對於URL來說,可以用下面的正則表達式匹配:
[a-zA-z]+://[^s]*
用這個正則表達式去匹配一個字元串,如果這個字元串中包含類似URL的文本,那就會被提取出來。
這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如,a-z
代表匹配任意的小寫字母,s
表示匹配任意的空白字元,*
就代表匹配前面的字元任意多個,這一長串的正則表達式就是這麼多匹配規則的組合。
寫好正則表達式後,就可以拿它去一個長字元串里匹配查找了。不論這個字元串裡面有什麼,只要符合我們寫的規則,統統可以找出來。對於網頁來說,如果想找出網頁源代碼里有多少URL,用匹配URL的正則表達式去匹配即可。
上面我們說了幾個匹配規則,表3-2列出了常用的匹配規則。
表3-2 常用的匹配規則
看完了之後,可能有點暈暈的吧,不過不用擔心,後面我們會詳細講解一些常見規則的用法。
其實正則表達式不是Python獨有的,它也可以用在其他編程語言中。但是Python的re庫提供了整個正則表達式的實現,利用這個庫,可以在Python中使用正則表達式。在Python中寫正則表達式幾乎都用這個庫,下面就來了解它的一些常用方法。
2. match()
這裡首先介紹第一個常用的匹配方法——match()
,向它傳入要匹配的字元串以及正則表達式,就可以檢測這個正則表達式是否匹配字元串。
match()
方法會嘗試從字元串的起始位置匹配正則表達式,如果匹配,就返回匹配成功的結果;如果不匹配,就返回None
。示例如下:
import recontent = Hello 123 4567 World_This is a Regex Demoprint(len(content))result = re.match(^Hellosdddsd{4}sw{10}, content)print(result)print(result.group())print(result.span())
運行結果如下:
41<_sre.SRE_Match object; span=(0, 25), match=Hello 123 4567 World_This>Hello 123 4567 World_This(0, 25)
這裡首先聲明了一個字元串,其中包含英文字母、空白字元、數字等。接下來,我們寫一個正則表達式:
^Hellosdddsd{4}sw{10}
用它來匹配這個長字元串。開頭的^
是匹配字元串的開頭,也就是以Hello
開頭;然後s
匹配空白字元,用來匹配目標字元串的空格;d
匹配數字,3個d
匹配123;然後再寫1個s
匹配空格;後面還有4567
,我們其實可以依然用4個d
來匹配,但是這麼寫比較煩瑣,所以後面可以跟{4}
以代表匹配前面的規則4次,也就是匹配4個數字;然後後面再緊接1個空白字元,最後w{10}
匹配10個字母及下劃線。我們注意到,這裡其實並沒有把目標字元串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。
而在match()
方法中,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字元串。
列印輸出結果,可以看到結果是SRE_Match
對象,這證明成功匹配。該對象有兩個方法:group()
方法可以輸出匹配到的內容,結果是Hello 123 4567 World_This
,這恰好是正則表達式規則所匹配的內容;span()
方法可以輸出匹配的範圍,結果是(0, 25)
,這就是匹配到的結果字元串在原字元串中的位置範圍。
通過上面的例子,我們基本了解了如何在Python中使用正則表達式來匹配一段文字。
匹配目標
剛才我們用match()
方法可以得到匹配到的字元串內容,但是如果想從字元串中提取一部分內容,該怎麼辦呢?就像最前面的實例一樣,從一段文本中提取出郵件或電話號碼等內容。
這裡可以使用()
括弧將想提取的子字元串括起來。()
實際上標記了一個子表達式的開始和結束位置,被標記的每個子表達式會依次對應每一個分組,調用group()
方法傳入分組的索引即可獲取提取的結果。示例如下:
import recontent = Hello 1234567 World_This is a Regex Demoresult = re.match(^Hellos(d+)sWorld, content)print(result)print(result.group())print(result.group(1))print(result.span())
這裡我們想把字元串中的1234567
提取出來,此時可以將數字部分的正則表達式用()
括起來,然後調用了group(1)
獲取匹配結果。
運行結果如下:
<_sre.SRE_Match object; span=(0, 19), match=Hello 1234567 World>Hello 1234567 World1234567(0, 19)
可以看到,我們成功得到了1234567
。這裡用的是group(1)
,它與group()
有所不同,後者會輸出完整的匹配結果,而前者會輸出第一個被()
包圍的匹配結果。假如正則表達式後面還有()
包括的內容,那麼可以依次用group(2)
、group(3)
等來獲取。
通用匹配
剛才我們寫的正則表達式其實比較複雜,出現空白字元我們就寫s
匹配,出現數字我們就用d
匹配,這樣的工作量非常大。其實完全沒必要這麼做,因為還有一個萬能匹配可以用,那就是.*
(點星)。其中.
(點)可以匹配任意字元(除換行符),*
(星)代表匹配前面的字元無限次,所以它們組合在一起就可以匹配任意字元了。有了它,我們就不用挨個字元地匹配了。
接著上面的例子,我們可以改寫一下正則表達式:
import recontent = Hello 123 4567 World_This is a Regex Demoresult = re.match(^Hello.*Demo$, content)print(result)print(result.group())print(result.span())
這裡我們將中間部分直接省略,全部用.*
來代替,最後加一個結尾字元串就好了。運行結果如下:
<_sre.SRE_Match object; span=(0, 41), match=Hello 123 4567 World_This is a Regex Demo>Hello 123 4567 World_This is a Regex Demo(0, 41)
可以看到,group()
方法輸出了匹配的全部字元串,也就是說我們寫的正則表達式匹配到了目標字元串的全部內容;span()
方法輸出(0, 41)
,這是整個字元串的長度。
因此,我們可以使用.*
簡化正則表達式的書寫。
貪婪與非貪婪
使用上面的通用匹配.*
時,可能有時候匹配到的並不是我們想要的結果。看下面的例子:
import recontent = Hello 1234567 World_This is a Regex Demoresult = re.match(^He.*(d+).*Demo$, content)print(result)print(result.group(1))
這裡我們依然想獲取中間的數字,所以中間依然寫的是(d+)
。而數字兩側由於內容比較雜亂,所以想省略來寫,都寫成 .*
。最後,組成^He.*(d+).*Demo$
,看樣子並沒有什麼問題。我們看下運行結果:
<_sre.SRE_Match object; span=(0, 40), match=Hello 1234567 World_This is a Regex Demo>7
奇怪的事情發生了,我們只得到了7這個數字,這是怎麼回事呢?
這裡就涉及一個貪婪匹配與非貪婪匹配的問題了。在貪婪匹配下,.*
會匹配儘可能多的字元。正則表達式中.*
後面是d+
,也就是至少一個數字,並沒有指定具體多少個數字,因此,.*
就儘可能匹配多的字元,這裡就把123456
匹配了,給d+
留下一個可滿足條件的數字7,最後得到的內容就只有數字7了。
但這很明顯會給我們帶來很大的不便。有時候,匹配結果會莫名其妙少了一部分內容。其實,這裡只需要使用非貪婪匹配就好了。非貪婪匹配的寫法是.*?
,多了一個?
,那麼它可以達到怎樣的效果?我們再用實例看一下:
import recontent = Hello 1234567 World_This is a Regex Demoresult = re.match(^He.*?(d+).*Demo$, content)print(result)print(result.group(1))
這裡我們只是將第一個.*
改成了.*?
,轉變為非貪婪匹配。結果如下:
<_sre.SRE_Match object; span=(0, 40), match=Hello 1234567 World_This is a Regex Demo>1234567
此時就可以成功獲取1234567
了。原因可想而知,貪婪匹配是儘可能匹配多的字元,非貪婪匹配就是儘可能匹配少的字元。當.*?
匹配到Hello
後面的空白字元時,再往後的字元就是數字了,而d+
恰好可以匹配,那麼這裡.*?
就不再進行匹配,交給d+
去匹配後面的數字。所以這樣.*?
匹配了儘可能少的字元,d+
的結果就是1234567
了。
所以說,在做匹配的時候,字元串中間盡量使用非貪婪匹配,也就是用.*?
來代替.*
,以免出現匹配結果缺失的情況。
但這裡需要注意,如果匹配的結果在字元串結尾,.*?
就有可能匹配不到任何內容了,因為它會匹配儘可能少的字元。例如:
import recontent = http://weibo.com/comment/kEraCNresult1 = re.match(http.*?comment/(.*?), content)result2 = re.match(http.*?comment/(.*), content)print(result1, result1.group(1))print(result2, result2.group(1))
運行結果如下:
result1 result2 kEraCN
可以觀察到,.*?
沒有匹配到任何結果,而.*
則盡量匹配多的內容,成功得到了匹配結果。
修飾符
正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。我們用實例來看一下:
import recontent = Hello 1234567 World_Thisis a Regex Demoresult = re.match(^He.*?(d+).*?Demo$, content)print(result.group(1))
和上面的例子相仿,我們在字元串中加了換行符,正則表達式還是一樣的,用來匹配其中的數字。看一下運行結果:
AttributeError Traceback (most recent call last)<ipython-input-18-c7d232b39645> in <module>() 5 6 result = re.match(^He.*?(d+).*?Demo$, content)----> 7 print(result.group(1))AttributeError: NoneType object has no attribute group
運行直接報錯,也就是說正則表達式沒有匹配到這個字元串,返回結果為None
,而我們又調用了group()
方法導致AttributeError
。
那麼,為什麼加了一個換行符,就匹配不到了呢?這是因為.
匹配的是除換行符之外的任意字元,當遇到換行符時,.*?
就不能匹配了,所以導致匹配失敗。這裡只需加一個修飾符re.S
,即可修正這個錯誤:
result = re.match(^He.*?(d+).*?Demo$, content, re.S)
這個修飾符的作用是使.
匹配包括換行符在內的所有字元。此時運行結果如下:
1234567
這個re.S
在網頁匹配中經常用到。因為HTML節點經常會有換行,加上它,就可以匹配節點與節點之間的換行了。
另外,還有一些修飾符,在必要的情況下也可以使用,如表3-3所示。
表3-3 修飾符
在網頁匹配中,較為常用的有re.S
和re.I
。
轉義匹配
我們知道正則表達式定義了許多匹配模式,如.
匹配除換行符以外的任意字元,但是如果目標字元串裡面就包含.
,那該怎麼辦呢?
這裡就需要用到轉義匹配了,示例如下:
import recontent = (百度)www.baidu.comresult = re.match((百度)www.baidu.com, content)print(result)
當遇到用於正則匹配模式的特殊字元時,在前面加反斜線轉義一下即可。例如.
就可以用.
來匹配,運行結果如下:
<_sre.SRE_Match object; span=(0, 17), match=(百度)www.baidu.com>
可以看到,這裡成功匹配到了原字元串。
這些是寫正則表達式常用的幾個知識點,熟練掌握它們對後面寫正則表達式匹配非常有幫助。
3. search()
前面提到過,match()
方法是從字元串的開頭開始匹配的,一旦開頭不匹配,那麼整個匹配就失敗了。我們看下面的例子:
import recontent = Extra stings Hello 1234567 World_This is a Regex Demo Extra stingsresult = re.match(Hello.*?(d+).*?Demo, content)print(result)
這裡的字元串以Extra
開頭,但是正則表達式以Hello
開頭,整個正則表達式是字元串的一部分,但是這樣匹配是失敗的。運行結果如下:
None
因為match()
方法在使用時需要考慮到開頭的內容,這在做匹配時並不方便。它更適合用來檢測某個字元串是否符合某個正則表達式的規則。
這裡就有另外一個方法search()
,它在匹配時會掃描整個字元串,然後返回第一個成功匹配的結果。也就是說,正則表達式可以是字元串的一部分,在匹配時,search()
方法會依次掃描字元串,直到找到第一個符合規則的字元串,然後返回匹配內容,如果搜索完了還沒有找到,就返回None
。
我們把上面代碼中的match()
方法修改成search()
,再看下運行結果:
<_sre.SRE_Match object; span=(13, 53), match=Hello 1234567 World_This is a Regex Demo>1234567
這時就得到了匹配結果。
因此,為了匹配方便,我們可以盡量使用search()
方法。
下面再用幾個實例來看看search()
方法的用法。
首先,這裡有一段待匹配的HTML文本,接下來寫幾個正則表達式實例來實現相應信息的提取:
html = <div id="songs-list"> <h2 class="title">經典老歌</h2> <p class="introduction"> 經典老歌列表 </p> <ul id="list" class="list-group"> <li data-view="2">一路上有你</li> <li data-view="7"> <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a> </li> <li data-view="4" class="active"> <a href="/3.mp3" singer="齊秦">往事隨風</a> </li> <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li> <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li> <li data-view="5"> <a href="/6.mp3" singer="鄧麗君"><i class="fa fa-user"></i>但願人長久</a> </li> </ul></div>
可以觀察到,ul
節點裡有許多li
節點,其中li
節點中有的包含a
節點,有的不包含a
節點,a
節點還有一些相應的屬性——超鏈接和歌手名。
首先,我們嘗試提取class
為active
的li
節點內部的超鏈接包含的歌手名和歌名,此時需要提取第三個li
節點下a
節點的singer
屬性和文本。
此時正則表達式可以以li
開頭,然後尋找一個標誌符active
,中間的部分可以用.*?
來匹配。接下來,要提取singer
這個屬性值,所以還需要寫入singer="(.*?)"
,這裡需要提取的部分用小括弧括起來,以便用group()
方法提取出來,它的兩側邊界是雙引號。然後還需要匹配a
節點的文本,其中它的左邊界是>
,右邊界是</a>
。然後目標內容依然用(.*?)
來匹配,所以最後的正則表達式就變成了:
<li.*?active.*?singer="(.*?)">(.*?)</a>
然後再調用search()
方法,它會搜索整個HTML文本,找到符合正則表達式的第一個內容返回。
另外,由於代碼有換行,所以這裡第三個參數需要傳入re.S
。整個匹配代碼如下:
result = re.search(<li.*?active.*?singer="(.*?)">(.*?)</a>, html, re.S)if result: print(result.group(1), result.group(2))
由於需要獲取的歌手和歌名都已經用小括弧包圍,所以可以用group()
方法獲取。
運行結果如下:
齊秦 往事隨風
可以看到,這正是class
為active
的li
節點內部的超鏈接包含的歌手名和歌名。
如果正則表達式不加active
(也就是匹配不帶class
為active
的節點內容),那會怎樣呢?我們將正則表達式中的active
去掉,代碼改寫如下:
result = re.search(<li.*?singer="(.*?)">(.*?)</a>, html, re.S)if result: print(result.group(1), result.group(2))
由於search()方法會返回第一個符合條件的匹配目標,這裡結果就變了:
任賢齊 滄海一聲笑
把active
標籤去掉後,從字元串開頭開始搜索,此時符合條件的節點就變成了第二個li
節點,後面的就不再匹配,所以運行結果就變成第二個li
節點中的內容。
注意,在上面的兩次匹配中,search()
方法的第三個參數都加了re.S
,這使得.*?
可以匹配換行,所以含有換行的li
節點被匹配到了。如果我們將其去掉,結果會是什麼?代碼如下:
result = re.search(<li.*?singer="(.*?)">(.*?)</a>, html)if result: print(result.group(1), result.group(2))
運行結果如下:
beyond 光輝歲月
可以看到,結果變成了第四個li
節點的內容。這是因為第二個和第三個li
節點都包含了換行符,去掉re.S
之後,.*?
已經不能匹配換行符,所以正則表達式不會匹配到第二個和第三個li
節點,而第四個li
節點中不包含換行符,所以成功匹配。
由於絕大部分的HTML文本都包含了換行符,所以盡量都需要加上re.S
修飾符,以免出現匹配不到的問題。
4. findall()
前面我們介紹了search()
方法的用法,它可以返回匹配正則表達式的第一個內容,但是如果想要獲取匹配正則表達式的所有內容,那該怎麼辦呢?這時就要藉助findall()
方法了。該方法會搜索整個字元串,然後返回匹配正則表達式的所有內容。
還是上面的HTML文本,如果想獲取所有a
節點的超鏈接、歌手和歌名,就可以將search()
方法換成findall()
方法。如果有返回結果的話,就是列表類型,所以需要遍歷一下來依次獲取每組內容。代碼如下:
results = re.findall(<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>, html, re.S)print(results)print(type(results))for result in results: print(result) print(result[0], result[1], result[2])
運行結果如下:
[(/2.mp3, 任賢齊, 滄海一聲笑), (/3.mp3, 齊秦, 往事隨風), (/4.mp3, beyond, 光輝歲月), (/5.mp3, 陳慧琳, 記事本), (/6.mp3, 鄧麗君, 但願人長久)]<class list>(/2.mp3, 任賢齊, 滄海一聲笑)/2.mp3 任賢齊 滄海一聲笑(/3.mp3, 齊秦, 往事隨風)/3.mp3 齊秦 往事隨風(/4.mp3, beyond, 光輝歲月)/4.mp3 beyond 光輝歲月(/5.mp3, 陳慧琳, 記事本)/5.mp3 陳慧琳 記事本(/6.mp3, 鄧麗君, 但願人長久)/6.mp3 鄧麗君 但願人長久
可以看到,返回的列表中的每個元素都是元組類型,我們用對應的索引依次取出即可。
如果只是獲取第一個內容,可以用search()
方法。當需要提取多個內容時,可以用findall()
方法。
5. sub()
除了使用正則表達式提取信息外,有時候還需要藉助它來修改文本。比如,想要把一串文本中的所有數字都去掉,如果只用字元串的replace()
方法,那就太煩瑣了,這時可以藉助sub()
方法。示例如下:
import recontent = 54aK54yr5oiR54ix5L2gcontent = re.sub(d+, , content)print(content)
運行結果如下:
aKyroiRixLg
這裡只需要給第一個參數傳入d+
來匹配所有的數字,第二個參數為替換成的字元串(如果去掉該參數的話,可以賦值為空),第三個參數是原字元串。
在上面的HTML文本中,如果想獲取所有li
節點的歌名,直接用正則表達式來提取可能比較煩瑣。比如,可以寫成這樣子:
results = re.findall(<li.*?>s*?(<a.*?>)?(w+)(</a>)?s*?</li>, html, re.S)for result in results: print(result[1])
運行結果如下:
一路上有你滄海一聲笑往事隨風光輝歲月記事本但願人長久
此時藉助sub()
方法就比較簡單了。可以先用sub()
方法將a
節點去掉,只留下文本,然後再利用findall()
提取就好了:
html = re.sub(<a.*?>|</a>, , html)print(html)results = re.findall(<li.*?>(.*?)</li>, html, re.S)for result in results: print(result.strip())
運行結果如下:
<div id="songs-list"> <h2 class="title">經典老歌</h2> <p class="introduction"> 經典老歌列表 </p> <ul id="list" class="list-group"> <li data-view="2">一路上有你</li> <li data-view="7"> 滄海一聲笑 </li> <li data-view="4" class="active"> 往事隨風 </li> <li data-view="6">光輝歲月</li> <li data-view="5">記事本</li> <li data-view="5"> 但願人長久 </li> </ul></div>一路上有你滄海一聲笑往事隨風光輝歲月記事本但願人長久
可以看到,a
節點經過sub()
方法處理後就沒有了,然後再通過findall()
方法直接提取即可。可以看到,在適當的時候,藉助sub()
方法可以起到事半功倍的效果。
6. compile()
前面所講的方法都是用來處理字元串的方法,最後再介紹一下compile()
方法,這個方法可以將正則字元串編譯成正則表達式對象,以便在後面的匹配中復用。示例代碼如下:
import recontent1 = 2016-12-15 12:00content2 = 2016-12-17 12:55content3 = 2016-12-22 13:21pattern = re.compile(d{2}:d{2})result1 = re.sub(pattern, , content1)result2 = re.sub(pattern, , content2)result3 = re.sub(pattern, , content3)print(result1, result2, result3)
例如,這裡有3個日期,我們想分別將3個日期中的時間去掉,這時可以藉助sub()
方法。該方法的第一個參數是正則表達式,但是這裡沒有必要重複寫3個同樣的正則表達式,此時可以藉助compile()
方法將正則表達式編譯成一個正則表達式對象,以便復用。
運行結果如下:
2016-12-15 2016-12-17 2016-12-22
另外,compile()
還可以傳入修飾符,例如re.S
等修飾符,這樣在search()
、findall()
等方法中就不需要額外傳了。所以,compile()
方法可以說是給正則表達式做了一層封裝,以便我們更好地復用。
到此為止,正則表達式的基本用法就介紹完了,後面會通過具體的實例來講解正則表達式的用法。
本資源首發於崔慶才的個人博客靜覓: Python3網路爬蟲開發實戰教程 | 靜覓
如想了解更多爬蟲資訊,請關注我的個人微信公眾號:進擊的Coder
http://weixin.qq.com/r/5zsjOyvEZXYarW9Y9271 (二維碼自動識別)
推薦閱讀: