正則表達式如何匹配網頁裡面的漢字?

python做的爬蟲,需要提取html中&Apple iPhone 5s (A1530) 16GB 金色 移動聯通4G手機& &這裡面的手機名,因為初學怎麼都不能匹配完全, 其中用.*只能匹配到Apple iPhone 5s (A1 請各位指點一下!已經困住兩天了!


謝邀。

我又來安利xpath了,放棄正則表達式吧少年。

//span[@class="pro-title"]/text()


沒人用BeautifulSoup?


(?&<=&>).*?(?=&<)

如果實際情況中有許多不同的「&<&>」對,就請自行填充前後向斷言的內容


怒答,看到不懂正則的還瞎BB,為你感到悲哀!上圖!

---------------代碼區----------------
# coding:utf-8
import re
x="&Apple iPhone 5s (A1530) 16GB 金色 移動聯通4G手機& &"
xre=r"(&)(.+)(& &)"
z=re.search(xre,x).group(2)
print z
----------輸出區-----------------------
C:Python27python.exe D:/PycharmProjects/爬蟲/test.py
Apple iPhone 5s (A1530) 16GB 金色 移動聯通4G手機

進程已結束,退出代碼0


一般情況下可以這樣匹配中文,如圖:

先用靚湯或正則找到這個節點,再用上面的字元組匹配。

假設這個節點只有一個,用法如下:

import re
import requests as req
from bs4 import BeautifulSoup

url = "xxx"
html = req.get(url).text
bs = BeautifulSoup(html)
span = bs.find_all("span", "pro-title")

"""
span = re.findall("&[^&<]+&", html)
s = span[0]
m = re.findall("[u4e00-u9fa5]+", s)
"""

s = str(span)
m = re.findall("[u4e00-u9fa5]+", s)
print(m)


1.正則表達式基本語法

兩個特殊的符號"^"和"$"。他們的作用是分別指出一個字元串的開始和結束。例子如下:

"^The":表示所有以"The"開始的字元串("There","The cat"等);
"of despair$":表示所以以"of despair"結尾的字元串;
"^abc$":表示開始和結尾都是"abc"的字元串——呵呵,只有"abc"自己了;
"notice":表示任何包含"notice"的字元串。

象最後那個例子,如果你不使用兩個特殊字元,你就在表示要查找的串在被查找串的任意部分——你並
不把它定位在某一個頂端。

其它還有"*","+"和"?"這三個符號,表示一個或一序列字元重複出現的次數。它們分別表示「沒有或
更多」,「一次或更多」還有「沒有或一次」。下面是幾個例子:

"ab*":表示一個字元串有一個a後面跟著零個或若干個b。("a", "ab", "abbb",……);
"ab+":表示一個字元串有一個a後面跟著至少一個b或者更多;
"ab?":表示一個字元串有一個a後面跟著零個或者一個b;
"a?b+$":表示在字元串的末尾有零個或一個a跟著一個或幾個b。

你也可以使用範圍,用大括弧括起,用以表示重複次數的範圍。

"ab{2}":表示一個字元串有一個a跟著2個b("abb");
"ab{2,}":表示一個字元串有一個a跟著至少2個b;
"ab{3,5}":表示一個字元串有一個a跟著3到5個b。

請注意,你必須指定範圍的下限(如:"{0,2}"而不是"{,2}")。還有,你可能注意到了,"*","+"和
"?"相當於"{0,}","{1,}"和"{0,1}"。
還有一個"|",表示「或」操作:

"hi|hello":表示一個字元串里有"hi"或者"hello";
"(b|cd)ef":表示"bef"或"cdef";
"(a|b)*c":表示一串"a""b"混合的字元串後面跟一個"c";

"."可以替代任何字元:

"a.[0-9]":表示一個字元串有一個"a"後面跟著一個任意字元和一個數字;
"^.{3}$":表示有任意三個字元的字元串(長度為3個字元);

方括弧表示某些字元允許在一個字元串中的某一特定位置出現:

"[ab]":表示一個字元串有一個"a"或"b"(相當於"a|b");
"[a-d]":表示一個字元串包含小寫的"a"到"d"中的一個(相當於"a|b|c|d"或者"[abcd]");
"^[a-zA-Z]":表示一個以字母開頭的字元串;
"[0-9]%":表示一個百分號前有一位的數字;
",[a-zA-Z0-9]$":表示一個字元串以一個逗號後面跟著一個字母或數字結束。

你也可以在方括弧里用"^"表示不希望出現的字元,"^"應在方括弧里的第一位。(如:"%[^a-zA-Z]%"表
示兩個百分號中不應該出現字母)。

為了逐字表達,你必須在"^.$()|*+?{"這些字元前加上轉移字元""。

請注意在方括弧中,不需要轉義字元。

3.正則表達式的應用實例通俗說明

*******************************************************************************

//校驗是否全由數字組成

/^[0-9]{1,20}$/

^ 表示打頭的字元要匹配緊跟^後面的規則

$ 表示打頭的字元要匹配緊靠$前面的規則

[ ] 中的內容是可選字符集

[0-9] 表示要求字元範圍在0-9之間

{1,20}表示數字字元串長度合法為1到20,即為[0-9]中的字元出現次數的範圍是1到20次。

/^ 和 $/成對使用應該是表示要求整個字元串完全匹配定義的規則,而不是只匹配字元串中的一個子串。

*******************************************************************************

//校驗登錄名:只能輸入5-20個以字母開頭、可帶數字、「_」、「.」的字串

/^[a-zA-Z]{1}([a-zA-Z0-9]|[._]){4,19}$/

^[a-zA-Z]{1} 表示第一個字元要求是字母。

([a-zA-Z0-9]|[._]){4,19} 表示從第二位開始(因為它緊跟在上個表達式後面)的一個長度為4到9位的字元串,它要求是由大小寫字母、數字或者特殊字符集[._]組成。

*******************************************************************************

//校驗用戶姓名:只能輸入1-30個以字母開頭的字串

/^[a-zA-Z]{1,30}$/

*******************************************************************************

//校驗密碼:只能輸入6-20個字母、數字、下劃線

/^(w){6,20}$/

w:用於匹配字母,數字或下劃線字元

*******************************************************************************

//校驗普通電話、傳真號碼:可以「+」或數字開頭,可含有「-」 和 「 」

/^[+]{0,1}(d){1,3}[ ]?([-]?((d)|[ ]){1,12})+$/

d:用於匹配從0到9的數字;

「?」元字元規定其前導對象必須在目標對象中連續出現零次或一次

可以匹配的字元串如:+123 -999 999 ; +123-999 999 ;123 999 999 ;+123 999999等

*******************************************************************************

//校驗URL

/^http[s]{0,1}://.+$/ 或 /^http[s]{0,1}://.{1,n}$/ (表示url串的長度為length(「https://」) + n )

/ :表示字元「/」。

. 表示所有字元的集

+ 等同於{1,},就是1到正無窮吧。

*******************************************************************************

//校驗純中文字元

/^[u4E00-u9FA5]+$/

[u4E00-u9FA5] :估計是中文字符集的範圍吧

4.正則表達式應用

"^d+$"  //非負整數(正整數 + 0) "^[0-9]*[1-9][0-9]*$"  //正整數 "^((-d+)|(0+))$"  //非正整數(負整數 + 0) "^-[0-9]*[1-9][0-9]*$"  //負整數 "^-?d+$"    //整數 "^d+(.d+)?$"  //非負浮點數(正浮點數 + 0) "^(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*))$"  //正浮點數 "^((-d+(.d+)?)|(0+(.0+)?))$"  //非正浮點數(負浮點數 + 0) "^(-(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*)))$"  //負浮點數 "^(-?d+)(.d+)?$"  //浮點數 "^[A-Za-z]+$"  //由26個英文字母組成的字元串 "^[A-Z]+$"  //由26個英文字母的大寫組成的字元串 "^[a-z]+$"  //由26個英文字母的小寫組成的字元串 "^[A-Za-z0-9]+$"  //由數字和26個英文字母組成的字元串 "^w+$"  //由數字、26個英文字母或者下劃線組成的字元串 "^[w-]+(.[w-]+)*@[w-]+(.[w-]+)+$"    //email地址 "^[a-zA-z]+://(w+(-w+)*)(.(w+(-w+)*))*(?S*)?$"  //url /^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/ // 年-月-日 /^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/ // 月/日/年 "^([w-.]+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(]?)$" //Emil "(d+-)?(d{4}-?d{7}|d{3}-?d{8}|^d{7,8})(-d+)?" //電話號碼 "^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5])$" //IP地址

^([0-9A-F]{2})(-[0-9A-F]{2}){5}$ //MAC地址的正則表達式 ^[-+]?d+(.d+)?$ //值類型正則表達式

5.javascript正則表達式檢驗實例

//校驗是否全由數字組成
function isDigit(s)
{
var patrn=/^[0-9]{1,20}$/;
if (!patrn.exec(s)) return false
return true
}

//校驗登錄名:只能輸入5-20個以字母開頭、可帶數字、「_」、「.」的字串
function isRegisterUserName(s)
{
var patrn=/^[a-zA-Z]{1}([a-zA-Z0-9]|[._]){4,19}$/;
if (!patrn.exec(s)) return false
return true
}

//校驗用戶姓名:只能輸入1-30個以字母開頭的字串
function isTrueName(s)
{
var patrn=/^[a-zA-Z]{1,30}$/;
if (!patrn.exec(s)) return false
return true
}

//校驗密碼:只能輸入6-20個字母、數字、下劃線
function isPasswd(s)
{
var patrn=/^(w){6,20}$/;
if (!patrn.exec(s)) return false
return true
}

//校驗普通電話、傳真號碼:可以「+」開頭,除數字外,可含有「-」
function isTel(s)
{
//var patrn=/^[+]{0,1}(d){1,3}[ ]?([-]?(d){1,12})+$/;
var patrn=/^[+]{0,1}(d){1,3}[ ]?([-]?((d)|[ ]){1,12})+$/;
if (!patrn.exec(s)) return false
return true
}

//校驗手機號碼:必須以數字開頭,除數字外,可含有「-」
function isMobil(s)
{
var patrn=/^[+]{0,1}(d){1,3}[ ]?([-]?((d)|[ ]){1,12})+$/;
if (!patrn.exec(s)) return false
return true
}

//校驗郵政編碼
function isPostalCode(s)
{
//var patrn=/^[a-zA-Z0-9]{3,12}$/;
var patrn=/^[a-zA-Z0-9 ]{3,12}$/;
if (!patrn.exec(s)) return false
return true
}

//校驗搜索關鍵字
function isSearch(s)
{
var patrn=/^[^`~!@#$%^*()+=|\][]{}:;",.&<&>/?]{1}[^`~!@$%^()+=|\][]{}:;",.&<&>?]{0,19}$/;
if (!patrn.exec(s)) return false
return true
}

function isIP(s) //by zergling
{
var patrn=/^[0-9.]{1,20}$/;
if (!patrn.exec(s)) return false
return true
}

其他

"^\d+$"  //非負整數(正整數 + 0)
"^[0-9]*[1-9][0-9]*$"  //正整數
"^((-\d+)|(0+))$"  //非正整數(負整數 + 0)
"^-[0-9]*[1-9][0-9]*$"  //負整數
"^-?\d+$"    //整數
"^\d+(\.\d+)?$"  //非負浮點數(正浮點數 + 0)
"^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$"  //正浮點數
"^((-\d+(\.\d+)?)|(0+(\.0+)?))$"  //非正浮點數(負浮點數 + 0)
"^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"  //負浮點數
"^(-?\d+)(\.\d+)?$"  //浮點數
"^[A-Za-z]+$"  //由26個英文字母組成的字元串
"^[A-Z]+$"  //由26個英文字母的大寫組成的字元串
"^[a-z]+$"  //由26個英文字母的小寫組成的字元串
"^[A-Za-z0-9]+$"  //由數字和26個英文字母組成的字元串
"^\w+$"  //由數字、26個英文字母或者下劃線組成的字元串
"^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$"    //email地址
"^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$"  //url

參考資料:正則表達式詳細解析

正則表達式詳解


[u4e00-u9fa5]


pyquery 會用jquery的話你會愛上它的

正則寫法:

&([^&<]+)&


BeautifulSoup對這個問題那可是so easy

soup = BeautifulSoup("&Apple iPhone 5s (A1530) 16GB 金色 移動聯通4G手機&","html5lib")

span = soup.find("span")

text = span.text


換php用 phpQuery


CSS Selector


&(.*)&

這樣不就可以了嗎?


不是有強制環境編碼么?這樣就可以在pytthon里編輯操作漢字了


用PyQuery吧

正則可以在別的地方練習


&(.*?)& &


推薦閱讀:

已經有了各省的數據,如何將信息以可視化的方式顯示在地圖上?順便問一下python有相關的第三方包沒?
可以用 Python 來幹些什麼有趣的事?
想要用 python 做爬蟲, 是使用 scrapy框架還是用 requests, bs4 等庫?
Python 在 Linux 系統運維中都有哪些應用?

TAG:Python | 正則表達式 |