xpath 使用教程
<div class="demo">n <span>n </span>n <ul>n <li class="item-0">n <a href="link-0">link0-item</a>n </li>n <li class="item-1">n <a href="link-1">link1-item</a>n </li>n <li class="item-2">n <a href="link-2">link2-item</a>n </li>n </ul>n </divn
這篇文章列舉常用的一些 xpath 用法,以便同學們更好的理解使用 AnyCrawl - 可配置化爬蟲 這個網站
1. //div (獲取所有 div 元素,不管在文檔什麼位置)
2. /div (獲取根路徑 div 元素)
3. //div/span (獲取 div 元素下一級的 span 元素)
4. //div//span (獲取 div 元素所有後代的 span)
5. //ul/li[1] (獲取 ul 子元素下的第一個 li 元素)
6. //ul/li[last()] (獲取 ul 子元素下的最後一個 li 元素)
7. //div[@class="demo"] (獲取 class 為 demo 的 div 元素)
8. //ul/li/a/@href (獲取 ul>li>a 鏈接的 href 屬性)
9. //ul/li/a/text() (獲取 ul>li>a 鏈接的內容)
10. //*[@class="item-0"] (獲取 class 為 item-0 的元素)
11. //*[contains(@class, "de")] (獲取 class 元素包含 de 的元素)
參考手冊:xpath cheatsheet
推薦閱讀: