用xpath提取網頁上的元素,能否根據周圍的關鍵字來定位?
12-30
如圖,能否根據「建築類別「提取後面的文字?因為每個頁面的dd數量不同,直接用xpath難以定位。
你除了xpath之外,還有正則可以選擇,甚至還可以使用字元串的find來定位後切片
//dd[contains(strong/text(), "建築類別")]/text()contains()函數是最常用的,根據文本中的標誌文字定位節點
還可以用正則來進行定位的,如果不懂正則和xpath,可以用一些爬蟲軟體實現定位,八爪魚採集器這個採集軟體的正則工具和xpath工具對小白來說還是挺簡單實用的。
推薦閱讀: