scrapy 2.3 使用文件管道

2021-06-17 10:40 更新

使用時的典型工作流 ?FilesPipeline? 像這樣:

  1. 在spider中,您 爬取 一個項目并將所需的URL放入 ?file_urls? 字段。
  2. 該項從spider返回并轉到項管道。
  3. 當項目到達 ?FilesPipeline? ,中的URL ?file_urls? 使用標準的Scrapy計劃程序和下載程序(這意味著計劃程序和下載程序中間軟件被重用)來計劃下載字段,但具有更高的優(yōu)先級,在其他頁面被抓取之前對其進行處理。該項在特定管道階段保持“鎖定”,直到文件完成下載(或由于某種原因失?。?/li>
  4. 下載文件時,另一個字段 (?files? )將用結果填充。此字段將包含一個包含有關下載文件的信息的dict列表,例如下載路徑、原始的scraped url(取自 ?file_urls? 字段),文件校驗和和和文件狀態(tài)。列表中的文件 files 字段將保留與原始字段相同的順序 ?file_urls? 字段。如果某些文件下載失敗,將記錄一個錯誤,并且該文件不會出現在 ?files? 字段。
以上內容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號