scrapy 2.3 存儲后端

2021-06-09 11:26 更新

本地文件系統(tǒng)

源存儲在本地文件系統(tǒng)中。

URI方案: file示例性URI: file:///tmp/export.csv所需外部庫:無

請注意,對于本地文件系統(tǒng)存儲(僅限),如果您指定類似 /tmp/export.csv . 不過,這只在UNIX系統(tǒng)上工作。

FTP

這些提要存儲在FTP服務(wù)器中。

URI方案: ftp示例性URI: ftp://user:pass@ftp.example.com/path/to/export.csv所需外部庫:無

ftp支持兩種不同的連接模式: active or passive .默認情況下,Scrapy使用被動連接模式。要使用活動連接模式,請設(shè)置  設(shè)置為 True .

此存儲后端使用

S3

源存儲在 Amazon S3 .

URI方案: s3URI示例:s3://mybucket/path/to/export.csvs3://aws_key:aws_secret@mybucket/path/to/export.csv所需的外部庫: botocore

AWS憑證可以作為用戶/密碼在URI中傳遞,也可以通過以下設(shè)置傳遞:

AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEY

還可以使用此設(shè)置為導(dǎo)出的源定義自定義ACL:

FEED_STORAGE_S3_ACL

此存儲后端使用 delayed file delivery .

谷歌云存儲(GCS)

2.3 新版功能.

源存儲在 Google Cloud Storage .

URI方案: gsURI示例:gs://mybucket/path/to/export.csv所需的外部庫: google-cloud-storage .

有關(guān)身份驗證的詳細信息,請參閱 Google Cloud documentation .

你可以設(shè)置一個 項目標識 和 訪問控制列表(ACL) 通過以下設(shè)置:

FEED_STORAGE_GCS_ACLGCS_PROJECT_ID

此存儲后端使用 delayed file delivery .

標準輸出

進料被寫入 Scrapy 處理的標準輸出。

URI方案: stdout示例性URI: stdout:所需外部庫:無

延遲文件傳遞

如上所述,所述的一些存儲后端使用延遲的文件傳遞。

這些存儲后端不會將項上載到提要URI,因為這些項是被刮取的。相反,Scrapy將項目寫入一個臨時本地文件,只有當所有文件內(nèi)容都被寫入(即在爬網(wǎng)結(jié)束時),該文件才會上載到提要URI。

如果要在使用這些存儲后端之一時提前開始項目傳遞,請使用 FEED_EXPORT_BATCH_ITEM_COUNT 將輸出項拆分為多個文件,每個文件具有指定的最大項數(shù)。這樣,一旦文件達到最大項數(shù),該文件就被傳遞到提要URI,從而允許條目傳遞在爬網(wǎng)結(jié)束之前開始。


以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號