W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗值獎勵
Scrapy 默認值針對爬行特定站點進行了優(yōu)化。這些站點通常由一個殘缺的蜘蛛來處理,盡管這不是必需的或必需的(例如,有一些普通的蜘蛛來處理任何向它們拋出的給定站點)。
除了這種“集中的爬行”之外,還有另一種常見的爬行類型,它覆蓋了大量(可能是無限的)域,并且只受時間或其他任意約束的限制,而不是在域被爬行到完成或沒有更多的請求執(zhí)行時停止。這些被稱為“寬爬蟲”,是搜索引擎使用的典型爬蟲。
這些是一些常見的特性,通常在廣泛的爬行中發(fā)現(xiàn):
如上所述,Scrapy的默認設置是針對重點爬行而不是廣泛爬行而優(yōu)化的。然而,由于其異步體系結(jié)構(gòu),Scrapy非常適合執(zhí)行快速的廣泛爬行。本頁總結(jié)了在使用Scrapy進行寬范圍爬行時需要記住的一些事情,以及為實現(xiàn)高效的寬范圍爬行而調(diào)整Scrapy設置的具體建議。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: