閱讀(3.3k) 書簽贊(0) 我要糾錯(cuò)

lxml 讀取文本解析節(jié)點(diǎn)

2021-05-28 09:46 更新

from lxml import etree

text='''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">第一個(gè)</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0"><a href="link5.html">a屬性</a>
     </ul>
 </div>
'''
html=etree.HTML(text) #初始化生成一個(gè)XPath解析對(duì)象
result=etree.tostring(html,encoding='utf-8')   #解析對(duì)象輸出代碼
print(type(html))
print(type(result))
print(result.decode('utf-8'))

#etree會(huì)修復(fù)HTML文本節(jié)點(diǎn)
<class 'lxml.etree._Element'>
<class 'bytes'>
<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">第一個(gè)</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0"><a href="link5.html">a屬性</a>
     </li></ul>
 </div>
</body></html>

以上內(nèi)容是否對(duì)您有幫助：

← xpath 常用表達(dá)式

lxml 讀取HTML文件進(jìn)行解析 →

寫筆記

我要補(bǔ)充

lxml 讀取文本解析節(jié)點(diǎn)

推薦文章

推薦教程

推薦課程