scrapy 2.3 無泄漏泄漏

2021-06-17 10:33 更新

有時,您可能會注意到您的廢進程的內(nèi)存使用只會增加,但不會減少。不幸的是,即使Scrapy和您的項目都沒有泄漏內(nèi)存,也可能發(fā)生這種情況。這是由于Python的一個(不太常見)已知問題造成的,在某些情況下,該問題可能不會將釋放的內(nèi)存返回到操作系統(tǒng)。有關(guān)此問題的詳細信息,請參閱:

Evan Jones提出的改進建議,詳情見 this paper 在python 2.5中進行了合并,但這只會減少問題,并不能完全解決問題。引用論文:

不幸的是,這個補丁只能在競技場中不再分配對象的情況下釋放競技場。這意味著 Scrapy 化是一個大問題。一個應(yīng)用程序可以有許多兆字節(jié)的空閑內(nèi)存,分散在所有的區(qū)域中,但是它將無法釋放其中的任何一個。這是所有內(nèi)存分配器都遇到的問題。解決這個問題的唯一方法是移動到一個壓縮垃圾收集器,它能夠移動內(nèi)存中的對象。這將需要對python解釋器進行重大更改。

為了保持內(nèi)存消耗合理,可以將作業(yè)拆分為幾個較小的作業(yè)或啟用 persistent job queue 不時停止/啟動Spider。

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號