scrapy 2.3 避免被禁止

2021-06-16 10:57 更新

一些網(wǎng)站實施了某些措施,以防止僵尸爬行他們,不同程度的復雜度。繞開這些措施既困難又棘手,有時可能需要特殊的基礎設施。請考慮聯(lián)系 commercial support 如果有疑問。

以下是處理此類網(wǎng)站時要記住的一些提示:

  • 將你的用戶代理從瀏覽器中的一個著名的池中輪換出來(用google搜索以獲得一個列表)。
  • 禁用cookies(請參見 ?COOKIES_ENABLED? )因為有些網(wǎng)站可能會使用cookie來發(fā)現(xiàn)機器人行為
  • 使用下載延遲(2或更高)。見 ?DOWNLOAD_DELAY? 設置。
  • 如果可能,使用 Google cache 獲取頁面,而不是直接訪問站點
  • 使用一個旋轉(zhuǎn)的IP池。例如,自由 Tor project 或者像這樣的付費服務 ProxyMesh . 開源替代方案是 scrapoxy ,可以將自己的代理附加到的超級代理。
  • 使用一個在內(nèi)部繞過BAN的高度分布式下載程序,這樣您就可以專注于解析干凈的頁面。這種下載器的一個例子是 Crawlera

如果您仍然無法阻止您的bot被禁止,請考慮聯(lián)系 commercial support .

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號