scrapy 2.3 啟用“Ajax可爬行頁(yè)”的爬行

2021-06-16 11:37 更新

一些頁(yè)面(根據(jù)2013年的經(jīng)驗(yàn)數(shù)據(jù),高達(dá)1%)宣稱自己是 ajax crawlable . 這意味著它們提供了內(nèi)容的純HTML版本,通常只能通過(guò)Ajax提供。頁(yè)面可以用兩種方式表示:

  1. 通過(guò)使用 ?#!? 在url中-這是默認(rèn)方式;
  2. 通過(guò)使用一個(gè)特殊的元標(biāo)簽-這種方式在“主”、“索引”網(wǎng)站頁(yè)面上使用。

Scrapy 處理(1)自動(dòng);處理(2)啟用 AjaxCrawlMiddleware ::

AJAXCRAWL_ENABLED = True

在進(jìn)行廣泛的爬行時(shí),通常會(huì)對(duì)許多“索引”網(wǎng)頁(yè)進(jìn)行爬行;AjaxCrawl中間件有助于正確地對(duì)它們進(jìn)行爬行。它在默認(rèn)情況下是關(guān)閉的,因?yàn)樗幸恍┬阅荛_(kāi)銷,啟用它進(jìn)行聚焦爬行沒(méi)有什么意義。

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)