標籤:

xpath 使用教程

<div class="demo">n <span>n </span>n <ul>n <li class="item-0">n <a href="link-0">link0-item</a>n </li>n <li class="item-1">n <a href="link-1">link1-item</a>n </li>n <li class="item-2">n <a href="link-2">link2-item</a>n </li>n </ul>n </divn

這篇文章列舉常用的一些 xpath 用法,以便同學們更好的理解使用 AnyCrawl - 可配置化爬蟲 這個網站

1. //div (獲取所有 div 元素,不管在文檔什麼位置)

2. /div (獲取根路徑 div 元素)

3. //div/span (獲取 div 元素下一級的 span 元素)

4. //div//span (獲取 div 元素所有後代的 span)

5. //ul/li[1] (獲取 ul 子元素下的第一個 li 元素)

6. //ul/li[last()] (獲取 ul 子元素下的最後一個 li 元素)

7. //div[@class="demo"] (獲取 class 為 demo 的 div 元素)

8. //ul/li/a/@href (獲取 ul>li>a 鏈接的 href 屬性)

9. //ul/li/a/text() (獲取 ul>li>a 鏈接的內容)

10. //*[@class="item-0"] (獲取 class 為 item-0 的元素)

11. //*[contains(@class, "de")] (獲取 class 元素包含 de 的元素)

參考手冊:xpath cheatsheet

推薦閱讀:

TAG:爬虫 | Python |