正則表達式如何匹配網頁裡面的漢字？

12-30

python做的爬蟲，需要提取html中&Apple iPhone 5s (A1530) 16GB 金色移動聯通4G手機& &這裡面的手機名，因為初學怎麼都不能匹配完全，其中用.*只能匹配到Apple iPhone 5s (A1 請各位指點一下！已經困住兩天了！

謝邀。

我又來安利xpath了，放棄正則表達式吧少年。

//span[@class="pro-title"]/text()

沒人用BeautifulSoup?

(?&<=&>).*?(?=&<)

如果實際情況中有許多不同的「&<&>」對，就請自行填充前後向斷言的內容

怒答，看到不懂正則的還瞎BB，為你感到悲哀！上圖！

---------------代碼區---------------- # coding:utf-8 import re x="&Apple iPhone 5s (A1530) 16GB 金色移動聯通4G手機& &" xre=r"(&)(.+)(& &)" z=re.search(xre,x).group(2) print z ----------輸出區----------------------- C:Python27python.exe D:/PycharmProjects/爬蟲/test.py Apple iPhone 5s (A1530) 16GB 金色移動聯通4G手機

進程已結束,退出代碼0

一般情況下可以這樣匹配中文，如圖：

先用靚湯或正則找到這個節點，再用上面的字元組匹配。

假設這個節點只有一個，用法如下：

import re import requests as req from bs4 import BeautifulSoup


url = "xxx"

html = req.get(url).text

bs = BeautifulSoup(html)

span = bs.find_all("span", "pro-title")
"""

span = re.findall("&[^&<]+&", html)

s = span[0]

m = re.findall("[u4e00-u9fa5]+", s)

"""

s = str(span) m = re.findall("[u4e00-u9fa5]+", s) print(m)

1.正則表達式基本語法

兩個特殊的符號"^"和"$"。他們的作用是分別指出一個字元串的開始和結束。例子如下：

"^The"：表示所有以"The"開始的字元串（"There"，"The cat"等）；
"of despair$"：表示所以以"of despair"結尾的字元串；
"^abc$"：表示開始和結尾都是"abc"的字元串——呵呵，只有"abc"自己了；
"notice"：表示任何包含"notice"的字元串。

象最後那個例子，如果你不使用兩個特殊字元，你就在表示要查找的串在被查找串的任意部分——你並
不把它定位在某一個頂端。

其它還有"*"，"+"和"?"這三個符號，表示一個或一序列字元重複出現的次數。它們分別表示「沒有或
更多」，「一次或更多」還有「沒有或一次」。下面是幾個例子：

"ab*"：表示一個字元串有一個a後面跟著零個或若干個b。（"a", "ab", "abbb",……）；
"ab+"：表示一個字元串有一個a後面跟著至少一個b或者更多；
"ab?"：表示一個字元串有一個a後面跟著零個或者一個b；
"a?b+$"：表示在字元串的末尾有零個或一個a跟著一個或幾個b。

你也可以使用範圍，用大括弧括起，用以表示重複次數的範圍。

"ab{2}"：表示一個字元串有一個a跟著2個b（"abb"）；
"ab{2,}"：表示一個字元串有一個a跟著至少2個b；
"ab{3,5}"：表示一個字元串有一個a跟著3到5個b。

請注意，你必須指定範圍的下限（如："{0,2}"而不是"{,2}"）。還有，你可能注意到了，"*"，"+"和
"?"相當於"{0,}"，"{1,}"和"{0,1}"。
還有一個"|"，表示「或」操作：

"hi|hello"：表示一個字元串里有"hi"或者"hello"；
"(b|cd)ef"：表示"bef"或"cdef"；
"(a|b)*c"：表示一串"a""b"混合的字元串後面跟一個"c"；

"."可以替代任何字元：

"a.[0-9]"：表示一個字元串有一個"a"後面跟著一個任意字元和一個數字；
"^.{3}$"：表示有任意三個字元的字元串（長度為3個字元）；

方括弧表示某些字元允許在一個字元串中的某一特定位置出現：

"[ab]"：表示一個字元串有一個"a"或"b"（相當於"a|b"）；
"[a-d]"：表示一個字元串包含小寫的"a"到"d"中的一個（相當於"a|b|c|d"或者"[abcd]"）；
"^[a-zA-Z]"：表示一個以字母開頭的字元串；
"[0-9]%"：表示一個百分號前有一位的數字；
",[a-zA-Z0-9]$"：表示一個字元串以一個逗號後面跟著一個字母或數字結束。

你也可以在方括弧里用"^"表示不希望出現的字元，"^"應在方括弧里的第一位。（如："%[^a-zA-Z]%"表
示兩個百分號中不應該出現字母）。

為了逐字表達，你必須在"^.$()|*+?{"這些字元前加上轉移字元""。

請注意在方括弧中，不需要轉義字元。

3.正則表達式的應用實例通俗說明

*******************************************************************************

//校驗是否全由數字組成

/^[0-9]{1,20}$/

^ 表示打頭的字元要匹配緊跟^後面的規則

$ 表示打頭的字元要匹配緊靠$前面的規則

[ ] 中的內容是可選字符集

[0-9] 表示要求字元範圍在0-9之間

{1,20}表示數字字元串長度合法為1到20，即為[0-9]中的字元出現次數的範圍是1到20次。

/^ 和 $/成對使用應該是表示要求整個字元串完全匹配定義的規則，而不是只匹配字元串中的一個子串。

*******************************************************************************

//校驗登錄名：只能輸入5-20個以字母開頭、可帶數字、「_」、「.」的字串

/^[a-zA-Z]{1}([a-zA-Z0-9]|[._]){4,19}$/

^[a-zA-Z]{1} 表示第一個字元要求是字母。

([a-zA-Z0-9]|[._]){4,19} 表示從第二位開始（因為它緊跟在上個表達式後面）的一個長度為4到9位的字元串，它要求是由大小寫字母、數字或者特殊字符集[._]組成。

*******************************************************************************

//校驗用戶姓名：只能輸入1-30個以字母開頭的字串

/^[a-zA-Z]{1,30}$/

*******************************************************************************

//校驗密碼：只能輸入6-20個字母、數字、下劃線

/^(w){6,20}$/

w：用於匹配字母，數字或下劃線字元

*******************************************************************************

//校驗普通電話、傳真號碼：可以「+」或數字開頭，可含有「-」和「」

/^[+]{0,1}(d){1,3}[ ]?([-]?((d)|[ ]){1,12})+$/

d：用於匹配從0到9的數字；

「?」元字元規定其前導對象必須在目標對象中連續出現零次或一次

可以匹配的字元串如：+123 -999 999 ； +123-999 999 ；123 999 999 ；+123 999999等

*******************************************************************************

//校驗URL

/^http[s]{0,1}://.+$/ 或 /^http[s]{0,1}://.{1,n}$/ (表示url串的長度為length(「https://」) + n )

/ ：表示字元「/」。

. 表示所有字元的集

+ 等同於{1,}，就是1到正無窮吧。

*******************************************************************************

//校驗純中文字元

/^[u4E00-u9FA5]+$/

[u4E00-u9FA5] ：估計是中文字符集的範圍吧

4.正則表達式應用

"^d+$"　　//非負整數（正整數 + 0） "^[0-9]*[1-9][0-9]*$"　　//正整數 "^((-d+)|(0+))$"　　//非正整數（負整數 + 0） "^-[0-9]*[1-9][0-9]*$"　　//負整數 "^-?d+$"　　　　//整數 "^d+(.d+)?$"　　//非負浮點數（正浮點數 + 0） "^(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*))$"　　//正浮點數 "^((-d+(.d+)?)|(0+(.0+)?))$"　　//非正浮點數（負浮點數 + 0） "^(-(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*)))$"　　//負浮點數 "^(-?d+)(.d+)?$"　　//浮點數 "^[A-Za-z]+$"　　//由26個英文字母組成的字元串 "^[A-Z]+$"　　//由26個英文字母的大寫組成的字元串 "^[a-z]+$"　　//由26個英文字母的小寫組成的字元串 "^[A-Za-z0-9]+$"　　//由數字和26個英文字母組成的字元串 "^w+$"　　//由數字、26個英文字母或者下劃線組成的字元串 "^[w-]+(.[w-]+)*@[w-]+(.[w-]+)+$"　　　　//email地址 "^[a-zA-z]+://(w+(-w+)*)(.(w+(-w+)*))*(?S*)?$"　　//url /^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/ // 年-月-日 /^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/ // 月/日/年 "^([w-.]+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(]?)$" //Emil "(d+-)?(d{4}-?d{7}|d{3}-?d{8}|^d{7,8})(-d+)?" //電話號碼 "^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5])$" //IP地址

^([0-9A-F]{2})(-[0-9A-F]{2}){5}$ //MAC地址的正則表達式 ^[-+]?d+(.d+)?$ //值類型正則表達式

5.javascript正則表達式檢驗實例

//校驗是否全由數字組成
function isDigit(s)
{
var patrn=/^[0-9]{1,20}$/;
if (!patrn.exec(s)) return false
return true
}

//校驗登錄名：只能輸入5-20個以字母開頭、可帶數字、「_」、「.」的字串
function isRegisterUserName(s)
{
var patrn=/^[a-zA-Z]{1}([a-zA-Z0-9]|[._]){4,19}$/;
if (!patrn.exec(s)) return false
return true
}

//校驗用戶姓名：只能輸入1-30個以字母開頭的字串
function isTrueName(s)
{
var patrn=/^[a-zA-Z]{1,30}$/;
if (!patrn.exec(s)) return false
return true
}

//校驗密碼：只能輸入6-20個字母、數字、下劃線
function isPasswd(s)
{
var patrn=/^(w){6,20}$/;
if (!patrn.exec(s)) return false
return true
}

//校驗普通電話、傳真號碼：可以「+」開頭，除數字外，可含有「-」
function isTel(s)
{
//var patrn=/^[+]{0,1}(d){1,3}[ ]?([-]?(d){1,12})+$/;
var patrn=/^[+]{0,1}(d){1,3}[ ]?([-]?((d)|[ ]){1,12})+$/;
if (!patrn.exec(s)) return false
return true
}

//校驗手機號碼：必須以數字開頭，除數字外，可含有「-」
function isMobil(s)
{
var patrn=/^[+]{0,1}(d){1,3}[ ]?([-]?((d)|[ ]){1,12})+$/;
if (!patrn.exec(s)) return false
return true
}

//校驗郵政編碼
function isPostalCode(s)
{
//var patrn=/^[a-zA-Z0-9]{3,12}$/;
var patrn=/^[a-zA-Z0-9 ]{3,12}$/;
if (!patrn.exec(s)) return false
return true
}

//校驗搜索關鍵字
function isSearch(s)
{
var patrn=/^[^`~!@#$%^*()+=|\][]{}:;",.&<&>/?]{1}[^`~!@$%^()+=|\][]{}:;",.&<&>?]{0,19}$/;
if (!patrn.exec(s)) return false
return true
}

function isIP(s) //by zergling
{
var patrn=/^[0-9.]{1,20}$/;
if (!patrn.exec(s)) return false
return true
}

其他

"^\d+$"　　//非負整數（正整數 + 0）
"^[0-9]*[1-9][0-9]*$"　　//正整數
"^((-\d+)|(0+))$"　　//非正整數（負整數 + 0）
"^-[0-9]*[1-9][0-9]*$"　　//負整數
"^-?\d+$"　　　　//整數
"^\d+(\.\d+)?$"　　//非負浮點數（正浮點數 + 0）
"^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$"　　//正浮點數
"^((-\d+(\.\d+)?)|(0+(\.0+)?))$"　　//非正浮點數（負浮點數 + 0）
"^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"　　//負浮點數
"^(-?\d+)(\.\d+)?$"　　//浮點數
"^[A-Za-z]+$"　　//由26個英文字母組成的字元串
"^[A-Z]+$"　　//由26個英文字母的大寫組成的字元串
"^[a-z]+$"　　//由26個英文字母的小寫組成的字元串
"^[A-Za-z0-9]+$"　　//由數字和26個英文字母組成的字元串
"^\w+$"　　//由數字、26個英文字母或者下劃線組成的字元串
"^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$"　　　　//email地址
"^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$"　　//url

參考資料：正則表達式詳細解析

正則表達式詳解

[u4e00-u9fa5]

pyquery 會用jquery的話你會愛上它的

正則寫法：

&([^&<]+)&

BeautifulSoup對這個問題那可是so easy

soup = BeautifulSoup("&Apple iPhone 5s (A1530) 16GB 金色移動聯通4G手機&","html5lib")

span = soup.find("span")

text = span.text

換php用 phpQuery

CSS Selector

&(.*)&

這樣不就可以了嗎？

不是有強制環境編碼么？這樣就可以在pytthon里編輯操作漢字了

用PyQuery吧

正則可以在別的地方練習

&(.*?)& &