scrapy 2.3 避免被禁止

2021-06-16 10:57 更新

一些網(wǎng)站實(shí)施了某些措施，以防止僵尸爬行他們，不同程度的復(fù)雜度。繞開(kāi)這些措施既困難又棘手，有時(shí)可能需要特殊的基礎(chǔ)設(shè)施。請(qǐng)考慮聯(lián)系 commercial support 如果有疑問(wèn)。

以下是處理此類(lèi)網(wǎng)站時(shí)要記住的一些提示：

將你的用戶(hù)代理從瀏覽器中的一個(gè)著名的池中輪換出來(lái)（用google搜索以獲得一個(gè)列表）。
禁用cookies（請(qǐng)參見(jiàn) ?COOKIES_ENABLED? ）因?yàn)橛行┚W(wǎng)站可能會(huì)使用cookie來(lái)發(fā)現(xiàn)機(jī)器人行為
使用下載延遲（2或更高）。見(jiàn) ?DOWNLOAD_DELAY? 設(shè)置。
如果可能，使用 Google cache 獲取頁(yè)面，而不是直接訪(fǎng)問(wèn)站點(diǎn)
使用一個(gè)旋轉(zhuǎn)的IP池。例如，自由 Tor project 或者像這樣的付費(fèi)服務(wù) ProxyMesh . 開(kāi)源替代方案是 scrapoxy ，可以將自己的代理附加到的超級(jí)代理。
使用一個(gè)在內(nèi)部繞過(guò)BAN的高度分布式下載程序，這樣您就可以專(zhuān)注于解析干凈的頁(yè)面。這種下載器的一個(gè)例子是 Crawlera

如果您仍然無(wú)法阻止您的bot被禁止，請(qǐng)考慮聯(lián)系 commercial support .

以上內(nèi)容是否對(duì)您有幫助：

寫(xiě)筆記

我要補(bǔ)充

推薦文章