W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗(yàn)值獎(jiǎng)勵(lì)
Concurrency是并行處理的請求數(shù)。存在全局限制 (?CONCURRENT_REQUESTS
? )以及每個(gè)域都可以設(shè)置的附加限制 (?CONCURRENT_REQUESTS_PER_DOMAIN
? )或每IP (?CONCURRENT_REQUESTS_PER_IP
? )
注解
調(diào)度程序優(yōu)先級隊(duì)列 recommended for broad crawls 不支持 ?CONCURRENT_REQUESTS_PER_IP
? .
scrapy中的默認(rèn)全局并發(fā)限制不適用于并行地對許多不同的域進(jìn)行爬網(wǎng),因此您需要增加它。增加多少將取決于您的爬蟲有多少CPU和內(nèi)存可用。
一個(gè)好的起點(diǎn)是 100 ::
CONCURRENT_REQUESTS = 100
但最好的方法是做一些試驗(yàn),并確定零碎的進(jìn)程在什么樣的并發(fā)上受到CPU限制。為了獲得最佳性能,您應(yīng)該選擇CPU使用率為80-90%的并發(fā)性。
增加并發(fā)性也會增加內(nèi)存使用量。如果擔(dān)心內(nèi)存使用問題,您可能需要相應(yīng)地降低全局并發(fā)限制。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報(bào)電話:173-0602-2364|舉報(bào)郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: