scrapy 2.3 檢查實(shí)時(shí)瀏覽器DOM時(shí)的注意事項(xiàng)

2021-06-16 11:46 更新

由于開發(fā)人員工具在一個(gè)活動的瀏覽器DOM上運(yùn)行,所以在檢查頁面源代碼時(shí),您實(shí)際上看到的不是原始的HTML,而是應(yīng)用了一些瀏覽器清理和執(zhí)行javascript代碼后修改的HTML。尤其是火狐,以添加 ?<tbody>? 元素到表。另一方面,scrapy不修改原始頁面html,因此如果使用 ?<tbody>? 在xpath表達(dá)式中。

因此,您應(yīng)該記住以下幾點(diǎn):

  • 檢查DOM以查找要在Scrapy中使用的xpaths時(shí)禁用javascript(在“開發(fā)人員工具”設(shè)置中,單擊 Disable JavaScript )
  • 不要使用完整的xpath路徑,使用基于屬性的相對路徑和智能路徑(例如 ?id? , ?class? , ?width? 或任何識別特征,如 ?contains(@href, 'image')? .
  • 從不包括 ?<tbody>? xpath表達(dá)式中的元素,除非您真正知道自己在做什么
以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號