scrapy 2.3 項(xiàng)目管道

2021-06-08 14:15 更新

在一個項(xiàng)目被蜘蛛抓取之后,它被發(fā)送到項(xiàng)目管道,該管道通過幾個按順序執(zhí)行的組件來處理它。

每個項(xiàng)管道組件(有時稱為“項(xiàng)管道”)都是一個實(shí)現(xiàn)簡單方法的Python類。它們接收一個項(xiàng)目并對其執(zhí)行操作,還決定該項(xiàng)目是否應(yīng)繼續(xù)通過管道,或者是否應(yīng)刪除并不再處理。

項(xiàng)目管道的典型用途有:

  • 清理HTML數(shù)據(jù)
  • 驗(yàn)證抓取的數(shù)據(jù)(檢查項(xiàng)目是否包含某些字段)
  • 檢查重復(fù)項(xiàng)(并刪除它們)
  • 將爬取的項(xiàng)目存儲在數(shù)據(jù)庫中


以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號