scrapy 2.3 避免被禁止

2021-06-16 10:57 更新

一些網(wǎng)站實(shí)施了某些措施,以防止僵尸爬行他們,不同程度的復(fù)雜度。繞開(kāi)這些措施既困難又棘手,有時(shí)可能需要特殊的基礎(chǔ)設(shè)施。請(qǐng)考慮聯(lián)系 commercial support 如果有疑問(wèn)。

以下是處理此類(lèi)網(wǎng)站時(shí)要記住的一些提示:

  • 將你的用戶(hù)代理從瀏覽器中的一個(gè)著名的池中輪換出來(lái)(用google搜索以獲得一個(gè)列表)。
  • 禁用cookies(請(qǐng)參見(jiàn) ?COOKIES_ENABLED? )因?yàn)橛行┚W(wǎng)站可能會(huì)使用cookie來(lái)發(fā)現(xiàn)機(jī)器人行為
  • 使用下載延遲(2或更高)。見(jiàn) ?DOWNLOAD_DELAY? 設(shè)置。
  • 如果可能,使用 Google cache 獲取頁(yè)面,而不是直接訪(fǎng)問(wèn)站點(diǎn)
  • 使用一個(gè)旋轉(zhuǎn)的IP池。例如,自由 Tor project 或者像這樣的付費(fèi)服務(wù) ProxyMesh . 開(kāi)源替代方案是 scrapoxy ,可以將自己的代理附加到的超級(jí)代理。
  • 使用一個(gè)在內(nèi)部繞過(guò)BAN的高度分布式下載程序,這樣您就可以專(zhuān)注于解析干凈的頁(yè)面。這種下載器的一個(gè)例子是 Crawlera

如果您仍然無(wú)法阻止您的bot被禁止,請(qǐng)考慮聯(lián)系 commercial support .

以上內(nèi)容是否對(duì)您有幫助:
在線(xiàn)筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)