Python數據分析及可視化實例之正則Re

系列文章總目錄:Python數據分析及可視化實例目錄


1.正則表達式匯總表

先上一張大家都很熟悉的圖:

我自己很少用這張表,還的自己寫,多累,你說是吧!

2.常用正則表達式

一、校驗數字的表達式1 數字:^[0-9]*$2 n位的數字:^d{n}$3 至少n位的數字:^d{n,}$4 m-n位的數字:^d{m,n}$5 零和非零開頭的數字:^(0|[1-9][0-9]*)$6 非零開頭的最多帶兩位小數的數字:^([1-9][0-9]*)+(.[0-9]{1,2})?$7 帶1-2位小數的正數或負數:^(-)?d+(.d{1,2})?$8 正數、負數、和小數:^(-|+)?d+(.d+)?$9 有兩位小數的正實數:^[0-9]+(.[0-9]{2})?$10 有1~3位小數的正實數:^[0-9]+(.[0-9]{1,3})?$11 非零的正整數:^[1-9]d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^+?[1-9][0-9]*$12 非零的負整數:^-[1-9][]0-9"*$ 或 ^-[1-9]d*$13 非負整數:^d+$ 或 ^[1-9]d*|0$14 非正整數:^-[1-9]d*|0$ 或 ^((-d+)|(0+))$15 非負浮點數:^d+(.d+)?$ 或 ^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$16 非正浮點數:^((-d+(.d+)?)|(0+(.0+)?))$ 或 ^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$17 正浮點數:^[1-9]d*.d*|0.d*[1-9]d*$ 或 ^(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*))$18 負浮點數:^-([1-9]d*.d*|0.d*[1-9]d*)$ 或 ^(-(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*)))$19 浮點數:^(-?d+)(.d+)?$ 或 ^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$二、校驗字元的表達式1 漢字:^[u4e00-u9fa5]{0,}$2 英文和數字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$3 長度為3-20的所有字元:^.{3,20}$4 由26個英文字母組成的字元串:^[A-Za-z]+$5 由26個大寫英文字母組成的字元串:^[A-Z]+$6 由26個小寫英文字母組成的字元串:^[a-z]+$7 由數字和26個英文字母組成的字元串:^[A-Za-z0-9]+$8 由數字、26個英文字母或者下劃線組成的字元串:^w+$ 或 ^w{3,20}$9 中文、英文、數字包括下劃線:^[u4E00-u9FA5A-Za-z0-9_]+$10 中文、英文、數字但不包括下劃線等符號:^[u4E00-u9FA5A-Za-z0-9]+$ 或 ^[u4E00-u9FA5A-Za-z0-9]{2,20}$11 可以輸入含有^%&,;=?$"等字元:[^%&,;=?$x22]+12 禁止輸入含有~的字元:[^~x22]+三、特殊需求表達式1 Email地址:^w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?3 InternetURL:[a-zA-z]+://[^s]* 或 ^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$4 手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])d{8}$5 電話號碼("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^((d{3,4}-)|d{3.4}-)?d{7,8}$6 國內電話號碼(0511-4405222、021-87888822):d{3}-d{8}|d{4}-d{7}7 身份證號(15位、18位數字):^d{15}|d{18}$8 短身份證號碼(數字、字母x結尾):^([0-9]){7,18}(x|X)?$ 或 ^d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$9 帳號是否合法(字母開頭,允許5-16位元組,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$10 密碼(以字母開頭,長度在6~18之間,只能包含字母、數字和下劃線):^[a-zA-Z]w{5,17}$11 強密碼(必須包含大小寫字母和數字的組合,不能使用特殊字元,長度在8-10之間):^(?=.*d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$12 日期格式:^d{4}-d{1,2}-d{1,2}13 一年的12個月(01~09和1~12):^(0?[1-9]|1[0-2])$14 一個月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$15 錢的輸入格式:16 1.有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$17 2.這表示任意一個不以0開頭的數字,但是,這也意味著一個字元"0"不通過,所以我們採用下面的形式:^(0|[1-9][0-9]*)$18 3.一個0或者一個不以0開頭的數字.我們還可以允許開頭有一個負號:^(0|-?[1-9][0-9]*)$19 4.這表示一個0或者一個可能為負的開頭不為0的數字.讓用戶以0開頭好了.把負號的也去掉,因為錢總不能是負的吧.下面我們要加的是說明可能的小數部分:^[0-9]+(.[0-9]+)?$20 5.必須說明的是,小數點後面至少應該有1位數,所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的:^[0-9]+(.[0-9]{2})?$21 6.這樣我們規定小數點後面必須有兩位,如果你認為太苛刻了,可以這樣:^[0-9]+(.[0-9]{1,2})?$22 7.這樣就允許用戶只寫一位小數.下面我們該考慮數字中的逗號了,我們可以這樣:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$23 8.1到3個數字,後面跟著任意個 逗號+3個數字,逗號成為可選,而不是必須:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$24 備註:這就是最終結果了,別忘了"+"可以用"*"替代如果你覺得空字元串也可以接受的話(奇怪,為什麼?)最後,別忘了在用函數時去掉去掉那個反斜杠,一般的錯誤都在這裡25 xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$26 中文字元的正則表達式:[u4e00-u9fa5]27 雙位元組字元:[^x00-xff] (包括漢字在內,可以用來計算字元串的長度(一個雙位元組字元長度計2,ASCII字元計1))28 空白行的正則表達式:
s*
(可以用來刪除空白行)29 HTML標記的正則表達式:<(S*?)[^>]*>.*?</1>|<.*? /> (網上流傳的版本太糟糕,上面這個也僅僅能部分,對於複雜的嵌套標記依舊無能為力)30 首尾空白字元的正則表達式:^s*|s*$或(^s*)|(s*$) (可以用來刪除行首行尾的空白字元(包括空格、製表符、換頁符等等),非常有用的表達式)31 騰訊QQ號:[1-9][0-9]{4,} (騰訊QQ號從10000開始)32 中國郵政編碼:[1-9]d{5}(?!d) (中國郵政編碼為6位數字)33 IP地址:d+.d+.d+.d+ (提取IP地址時有用)34 IP地址:((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))

是不是覺得哪來主義有點不好意思?

3.萬能法則

3.1 貪婪與非貪婪匹配

如:str="ab123c"

  p1="ab.*?c"

p2="ab(.*?)c"

貪婪匹配:正則表達式一般趨向於最大長度匹配,也就是所謂的貪婪匹配。如上面使用模式p1匹配字元串str,結果就是匹配到:ab123c

非貪婪匹配:就是匹配到結果就好,就少的匹配字元。如上面使用模式p2匹配字元串str,結果就是匹配到:123

注意:在實踐中,正則沒必要一口就吞個胖子,可以降階匹配,少費點腦力,後面結合BeautifulSoup,就更簡單啦。

3.2 多行匹配

re.S:.將會匹配換行符,默認.不會匹配換行符。(Python Cookbook的方法OUT啦)

>>> re.findall("a(d+)b.+a(d+)b", "a23b
a34b") []>>> re.findall("a(d+)b.+a(d+)b", "a23b
a34b", re.S) [(23, 34)]

re.M:^$標誌將會匹配每一行,默認^和$只會匹配第一行:

>>> re.findall("^a(d+)b", "a23b
a34b") [23]>>> re.findall("^a(d+)b", "a23b
a34b", re.M) [23, 34]

如果沒有^標誌:

>>> re.findall("a(d+)b", "a23b
a23b") [23, 23]

具體的例子稍後會用爬蟲實例進行解說。

4.常用內置函數

以下代碼在Jupyter中調試運行。

# In[1]:import re# ## re.match & re.search# 在 `re` 模塊中, `re.match` 和 `re.search` 是常用的兩個方法:# # re.match(pattern, string[, flags])# re.search(pattern, string[, flags])# # 兩者都尋找第一個匹配成功的部分,成功則返回一個 `match` 對象,不成功則返回 `None`,不同之處在於 `re.match` 只匹配字元串的開頭部分,而 `re.search` 匹配的則是整個字元串中的子串。# ## re.findall & re.finditer# `re.findall(pattern, string)` 返回所有匹配的對象, `re.finditer` 則返回一個迭代器。# ## re.split# `re.split(pattern, string[, maxsplit])` 按照 `pattern` 指定的內容對字元串進行分割。# ## re.sub# `re.sub(pattern, repl, string[, count])` 將 `pattern` 匹配的內容進行替換。# ## re.compile# `re.compile(pattern)` 生成一個 `pattern` 對象,這個對象有匹配,替換,分割字元串的方法。# ## 例子# 假設我們要匹配這樣的字元串:# In[2]:string = hello worldpattern = hello (w+)match = re.match(pattern, string)print(match)# 一旦找到了符合條件的部分,我們便可以使用 `group` 方法查看匹配的部分:# In[3]:if match is not None: print(match.group(0))# In[4]:if match is not None: print(match.group(1))# 我們可以改變 string 的內容:# In[5]:string = hello therepattern = hello (w+)match = re.match(pattern, string)if match is not None: print(match.group(0)) print(match.group(1))# 通常,`match.group(0)` 匹配整個返回的內容,之後的 `1,2,3,...` 返回規則中每個括弧(按照括弧的位置排序)匹配的部分。# # 如果某個 `pattern` 需要反覆使用,那麼我們可以將它預先編譯:# In[7]:pattern1 = re.compile(hello (w+))match = pattern1.match(string)if match is not None: print(match.group(1))# 由於元字元的存在,所以對於一些特殊字元,我們需要使用 `` 進行逃逸字元的處理,使用表達式 `\` 來匹配 `` 。# # 但事實上,`Python` 本身對逃逸字元也是這樣處理的:# In[9]:pattern = \print(pattern)# 因為逃逸字元的問題,我們需要使用四個 `\\` 來匹配一個單獨的 ``:# In[10]:pattern = \\path = "C:\foo\bar\baz.txt"print(re.split(pattern, path))# 這樣看起來十分麻煩,好在 `Python` 提供了 `raw string` 來忽略對逃逸字元串的處理,從而可以這樣進行匹配:# In[11]:pattern = \path = "C:fooaraz.txt"print(re.split(pattern, path))

5.正則調試器(基於tkinter)

2015年學Tkinter的時候整理了一個正則調試器完整代碼,有興趣的小夥伴可以玩玩!

至於打包成exe文件,我推薦CXfreeze。

# -*-ecoding=utf-8-*-# !/usr/bin/env python"""Basic regular expression demostration facility (Perl style syntax)."""# 載入相應的庫或模塊2015-7-25 by yeayeefrom tkinter import *# 導入re正則import re# 定義一個對象class ReDemo: # 初始化屬性,其中參數self是默認的參數 def __init__(self, master): self.master = master self.promptdisplay = Label(self.master, anchor=W, text="正則表達式:") self.promptdisplay.pack(side=TOP, fill=X) self.regexdisplay = Entry(self.master) self.regexdisplay.pack(fill=X) self.regexdisplay.focus_set() self.addoptions() self.statusdisplay = Label(self.master, text="", anchor=W) self.statusdisplay.pack(side=TOP, fill=X) self.labeldisplay = Label(self.master, anchor=W, text="字 符 串:") self.labeldisplay.pack(fill=X) self.labeldisplay.pack(fill=X) self.showframe = Frame(master) self.showframe.pack(fill=X, anchor=W) self.showvar = StringVar(master) self.showvar.set("first") self.stringdisplay = Text(self.master, width_=60, height=4) self.stringdisplay.pack(fill=BOTH, expand=1) self.stringdisplay.tag_configure("hit", background="yellow") self.grouplabel = Label(self.master, text="匹配結果:", anchor=W) self.grouplabel.pack(fill=X) self.grouplist = Listbox(self.master) self.grouplist.pack(expand=1, fill=BOTH) self.regexdisplay.bind(<Key>, self.recompile) self.stringdisplay.bind(<Key>, self.reevaluate) self.compiled = None self.recompile() btags = self.regexdisplay.bindtags() self.regexdisplay.bindtags(btags[1:] + btags[:1]) btags = self.stringdisplay.bindtags() self.stringdisplay.bindtags(btags[1:] + btags[:1]) # 定義方法,也就是所謂的函數 def addoptions(self): self.frames = [] self.boxes = [] self.vars = [] name1 = [IGNORECASE, LOCALE, MULTILINE, DOTALL, VERBOSE] name2 = [不區分大小寫, 本地化識別, 忽略^和$, 忽略換行符, 鬆散正則] for name in range(0, 5): if len(self.boxes) % 3 == 0: frame = Frame(self.master) frame.pack(fill=X) self.frames.append(frame) val = getattr(re, name1[name]) var = IntVar() box = Checkbutton(frame, variable=var, text=name2[name], offvalue=0, onvalue=val, command=self.recompile) box.pack(side=LEFT) self.boxes.append(box) self.vars.append(var) def getflags(self): flags = 0 for var in self.vars: flags = flags | var.get() flags = flags return flags def recompile(self, event=None): try: print (self.regexdisplay.get(), 000) self.compiled = re.compile(self.regexdisplay.get(), self.getflags()) bg = self.promptdisplay[background] self.statusdisplay.config(text="", background=bg) except (re.error, msg): self.compiled = None self.statusdisplay.config( text="正則錯誤: %s" % str(msg), background="red") self.reevaluate() def reevaluate(self, event=None): try: self.stringdisplay.tag_remove("hit", "1.0", END) except TclError: pass try: self.stringdisplay.tag_remove("hit0", "1.0", END) except TclError: pass self.grouplist.delete(0, END) if not self.compiled: return self.stringdisplay.tag_configure("hit", background="yellow") self.stringdisplay.tag_configure("hit0", background="orange") text = self.stringdisplay.get("1.0", END) last = 0 nmatches = 0 while last <= len(text): m = self.compiled.findall(text, last) if m[0] == and m[0] == : break if len(m) != 0: for i in range(len(m)): g = u"第%d個: %s" % (i + 1, m[i]) self.grouplist.insert(END, g) nmatches = nmatches + 1 if self.showvar.get() == "first": break if nmatches == 0: self.statusdisplay.config(text="(不匹配)", background="yellow") else: self.statusdisplay.config(text="")def main(): pass root = Tk() demo = ReDemo(root) root.title(Python正則測試器) root.protocol(WM_DELETE_WINDOW, root.quit) root.mainloop()if __name__ == __main__: main()

膠水語言博大精深,

本主只得一二為新人帶路,

老鳥可去另一專欄:Python中文社區

Python數據分析及可視化實例目錄


最後,別只收藏不關注哈

推薦閱讀:

數據分析項目--如何選擇你的航班
我也來推薦一波Python書單
為什麼選擇Python
Python面試指南
redis 的常用命令

TAG:Python | 数据分析 | 数据可视化 |