用xpath提取網頁上的元素,能否根據周圍的關鍵字來定位?

如圖,能否根據「建築類別「提取後面的文字?因為每個頁面的dd數量不同,直接用xpath難以定位。


你除了xpath之外,還有正則可以選擇,甚至還可以使用字元串的find定位切片


//dd[contains(strong/text(), "建築類別")]/text()

contains()函數是最常用的,根據文本中的標誌文字定位節點


還可以用正則來進行定位的,如果不懂正則和xpath,可以用一些爬蟲軟體實現定位,八爪魚採集器這個採集軟體的正則工具和xpath工具對小白來說還是挺簡單實用的。


推薦閱讀:

谷歌瀏覽器直接提取的xpath,在python中為什麼無法提取相應內容?

TAG:Python | 爬蟲計算機網路 | XPath | scrapy |