Python爬蟲----Xpath語(yǔ)法快速入門

猿友 2020-12-17 16:33:28 瀏覽數(shù) (5423)

反饋

什么是 Xpath？

XPath 即為 XML 路徑語(yǔ)言，它是一種用來(lái)確定 XML (標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言子集)文檔中某部分位置的語(yǔ)言。XPath 基于 XML 的樹狀結(jié)構(gòu)，提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點(diǎn)的能力。起初 XPath 的提出的初衷是將其作為一個(gè)通用的、介于 XPointer 與 XSL 間的語(yǔ)法模型。但是 XPath 很快的被開發(fā)者采用來(lái)當(dāng)作小型查詢語(yǔ)言。

簡(jiǎn)單的來(lái)說(shuō)：Xpath（XML Path Language）是一門在 XML 和 HTML 文檔中查找信息的語(yǔ)言，可用來(lái)在 XML 和 HTML 文檔中對(duì)元素和屬性進(jìn)行遍歷。

XPath 開發(fā)工具

這里給大家介紹兩個(gè)小編用得較多也是用得最為廣泛與便捷的工具：

Chrome 插件 XPath Helper （需科學(xué)上網(wǎng)）；
Firefox 插件 Try XPath。

當(dāng)然 Chrome 插件 XPath Helper 也可以尋找安裝包后通過(guò)插件伴侶安裝，安裝方法步驟如下：

打開插件伴侶，選擇下載好的插件；
選擇提取插件內(nèi)容到桌面，桌面上會(huì)多一個(gè)文件夾；
把文件夾放入想要放的路徑下；
打開谷歌瀏覽器，選擇擴(kuò)展程序，開發(fā)者模式打開，選擇加載已解壓的擴(kuò)展程序，選擇路徑打開即可。

XPath 節(jié)點(diǎn)

在 XPath 中，有七種類型的節(jié)點(diǎn)：元素、屬性、文本、命名空間、處理指令、注釋以及文檔（根）節(jié)點(diǎn)。XML 文檔是被作為節(jié)點(diǎn)樹來(lái)對(duì)待的。樹的根被稱為文檔節(jié)點(diǎn)或者根節(jié)點(diǎn)。

XPath 語(yǔ)法

XPath 使用路徑表達(dá)式來(lái)選取 XML 文檔中的節(jié)點(diǎn)或節(jié)點(diǎn)集。節(jié)點(diǎn)是通過(guò)沿著路徑 (path) 或者步 (steps) 來(lái)選取的。

使用方式：

使用 // 獲取整個(gè)頁(yè)面當(dāng)中的元素，然后寫標(biāo)簽名，然后在寫謂語(yǔ)進(jìn)行提取，比如：

//title[@lang='en']

需要注意的知識(shí)點(diǎn)：

/ 和 // 的區(qū)別：/ 代表只獲取子節(jié)點(diǎn)，// 獲取子孫節(jié)點(diǎn)，一般 // 用的比較多，當(dāng)然也要視情況而定；
contains：有時(shí)候某個(gè)屬性中包含了多個(gè)值，那么可以使用 contains 函數(shù)，示例如下：

//title[contains(@lang,'en')]

謂詞中下標(biāo)是從 1 開始的，不是從 0 開始的

lxml 庫(kù)

lxml 是一個(gè)HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 數(shù)據(jù)。

該庫(kù)為第三方庫(kù)需使用 pip 進(jìn)行安裝，命令如下：

pip install lxml

基本使用：

如下是案例實(shí)操的 html 文件代碼，屏幕前的小伙伴可以保存下來(lái)一起動(dòng)手練習(xí)。

<div>

<ul>

<li class="im-0"><a href="link1.html"> first </a></li>

<li class="im-1"><a href="link2.html"> second </a></li>

<li class="im-active"><a href="link3.html"> third </a></li>

<li class="im-1"><a href="link4.html"> fourth </a></li>

<li class="im-0"><a href="link5.html"> fifth </a>

</ul>

</div>

案例 1：將字符串解析為 html 文檔

from lxml import etree

text = ''

html = etree.HTML(text) #讀取

print(html)

# 按字符串序列化html

result = etree.tostring(html).decode('utf-8')

print(result)

案例 2：從文件中讀取 html 代碼：

from lxml import etree

html = etree.parse('hello.html') #讀取

# 按字符串序列化html

result = etree.tostring(html).decode('utf-8')

print(result)

案例 3：在 lxml 中使用 Xpath 語(yǔ)法

from lxml import etree

html = etree.parse('hello.html')

# 獲取所有 li 標(biāo)簽：

# result = html.xpath('//li')

# print(result)

# for i in result:

# print(etree.tostring(i))

# 獲取所有l(wèi)i元素下的所有 class 屬性的值：

# result = html.xpath('//li/@class')

# print(result)

# 獲取 li 標(biāo)簽下 href 為http://o2fo.com/的 a 標(biāo)簽：

# result = html.xpath('//li/a[@href="http://o2fo.com/"]')

# print(result)

# 獲取 li 標(biāo)簽下所有 span 標(biāo)簽：

# result = html.xpath('//li//span')

# print(result)

# 獲取 li 標(biāo)簽下的 a 標(biāo)簽里的所有 class：

# result = html.xpath('//li/a//@class')

# print(result)

# 獲取最后一個(gè) li 的 a 的 href 屬性對(duì)應(yīng)的值：

# result = html.xpath('//li[last()]/a/@href')

# print(result)

# 獲取倒數(shù)第二個(gè) li 元素的內(nèi)容：

# result = html.xpath('//li[last()-1]/a')

# print(result)

# print(result[0].text)

# 獲取倒數(shù)第二個(gè) li 元素的內(nèi)容的第二種方式：

result = html.xpath('//li[last()-1]/a/text()')

print(result)

總結(jié)：

紙上得來(lái)終覺淺，絕知此事要躬行，一份耕耘，一份收獲。

Python

0 人點(diǎn)贊