scrapy 2.3 安裝指南
1. scrapy 2.3 安裝教程
2. scrapy 2.3 Windows環(huán)境搭建教程
3. scrapy 2.3 Ubuntu環(huán)境搭建教程
4. scrapy 2.3 macOS環(huán)境搭建教程
5. scrapy 2.3 PyPy環(huán)境搭建教程
6. scrapy 2.3 故障排除
scrapy 2.3 教程
1. scrapy 2.3 創(chuàng)建項目
2. scrapy 2.3 創(chuàng)建蜘蛛
3. scrapy 2.3 如何運行我們的蜘蛛
4. scrapy 2.3 請求方法快捷方式
5. scrapy 2.3 提取數(shù)據(jù)
6. scrapy 2.3 在蜘蛛中提取數(shù)據(jù)
7. scrapy 2.3 存儲抓取的數(shù)據(jù)
8. scrapy 2.3 數(shù)據(jù)抓取實例
9. scrapy 2.3 蜘蛛?yún)?shù)
scrapy 2.3 命令行工具
1. scrapy 2.3 配置設置
2. scrapy 2.3 報廢項目的默認結構
3. scrapy 2.3 在項目之間共享根目錄
4. scrapy 2.3 工具
5. scrapy 2.3 可用工具命令
6. scrapy 2.3 自定義項目命令
scrapy 2.3 蜘蛛
1. scrapy 2.3 scrapy.Spider
2. scrapy 2.3 蜘蛛爬取參數(shù)
3. scrapy 2.3 類蜘蛛CrawlSpider
4. scrapy 2.3 XMLFeedSpider
5. scrapy 2.3 CSVFeedSpider
6. scrapy 2.3 SitemapSpider
scrapy 2.3 選擇器
1. scrapy 2.3 使用選擇器
2. scrapy 2.3 使用xpaths
3. scrapy 2.3 內置選擇器引
  1. scrapy 2.3 SelectorList對象
4. scrapy 2.3 選擇器實例
  1. scrapy 2.3 HTML響應的選擇器示例
  2. scrapy 2.3 XML響應的選擇器示例
scrapy 2.3 項目
1. scrapy 2.3 項目類型
2. scrapy 2.3 使用項目對象
3. scrapy 2.3 支持所有項目類型
4. scrapy 2.3 與項目相關的其他類別
scrapy 2.3 項目加載器
1. scrapy 2.3 使用項目加載器填充項目
2. scrapy 2.3 使用dataclass項
3. scrapy 2.3 輸入和輸出處理器
4. scrapy 2.3 聲明項加載器
5. scrapy 2.3 聲明輸入和輸出處理器
6. scrapy 2.3 項目加載器上下文
7. scrapy 2.3 嵌套裝載機
8. scrapy 2.3 重復使用和擴展項目加載器
scrapy 2.3 shell
1. scrapy 2.3 配置shell
2. scrapy 2.3 shell啟動外殼
3. scrapy 2.3 shell使用外殼
  1. scrapy 2.3 shell可用快捷方式
  2. scrapy 2.3 Shell可用對象
4. scrapy 2.3 Shell會話示例
5. scrapy 2.3 從spiders調用shell來檢查響應
scrapy 2.3 項目管道
1. scrapy 2.3 編寫自己的項目管道
2. scrapy 2.3 項目管道示例
3. scrapy 2.3 激活項目管道組件
scrapy 2.3 Feed導出
1. scrapy 2.3 序列化格式
2. scrapy 2.3 儲藏室
3. scrapy 2.3 存儲URI參數(shù)
4. scrapy 2.3 存儲后端
5. scrapy 2.3 Feed導出設置
scrapy 2.3 請求和響應
1. 無標題文章
2. scrapy 2.3 停止下載響應
3. scrapy 2.3 請求子類
  1. scrapy 2.3 FormRequest對象
4. scrapy 2.3 響應子類
scrapy 2.3 鏈接提取器
scrapy 2.3 設置
1. scrapy 2.3 填充設置
2. scrapy 2.3 導入路徑和類
3. scrapy 2.3 如何訪問設置
4. scrapy 2.3 內置設置參考
scrapy 2.3 內置異常引用
scrapy 2.3 登錄
1. scrapy 2.3 日志級別
2. scrapy 2.3 如何記錄消息
3. scrapy 2.3 從蜘蛛記錄
4. scrapy 2.3 日志記錄配置
scrapy 2.3 統(tǒng)計數(shù)據(jù)集合
1. scrapy 2.3 常用統(tǒng)計信息收集器使用
scrapy 2.3 發(fā)送電子郵件
1. scrapy 2.3 郵件設置
scrapy 2.3 遠程登錄控制臺
1. scrapy 2.3 telnet控制臺中的可用變量
2. scrapy 2.3 telnet控制臺使用示例
3. scrapy 2.3 Telnet控制臺信號
4. scrapy 2.3 遠程登錄設置
scrapy 2.3 常見問題
1. Scrapy與BeautifulSoup或LXML相比如何
2. BeautifulSoup能和Scrapy一起使用嗎？
3. Scrapy是否從Django“竊取”X？
4. Scrapy能與HTTP代理一起工作嗎？
5. Scrapy是以廣度優(yōu)先還是深度優(yōu)先的順序爬行？
6. 響應狀態(tài)代碼999是什么意思？
7. 我可以從我的蜘蛛調用``pdb.set_trace（）``來調試它們嗎？
8. 如何將我的所有抓取項轉儲到json/csv/xml文件中？
9. 我應該使用蜘蛛?yún)?shù)或設置來配置我的蜘蛛嗎？
10. 如何在項目管道中將項目拆分為多個項目？
scrapy 2.3 調試spiders
1. scrapy 2.3 解析命令
2. scrapy 2.3 Scrapy Shell
3. scrapy 2.3 在瀏覽器中打開
4. scrapy 2.3 登錄
scrapy 2.3 蜘蛛合約
1. scrapy 2.3 正在檢測檢查運行
scrapy 2.3 常用做法
1. scrapy 2.3 怎么從腳本中運行
2. scrapy 2.3 在同一進程中運行多個spider
3. scrapy 2.3 分布式爬行
4. scrapy 2.3 避免被禁止
scrapy 2.3 寬爬行
1. scrapy 2.3 使用權利
2. scrapy 2.3 增加并發(fā)性
3. scrapy 2.3 增加Twisted IO線程池的最大大小
4. scrapy 2.3 設置您自己的DNS
5. scrapy 2.3 降低日志級別
6. scrapy 2.3 禁用Cookie
7. scrapy 2.3 禁用重試
8. scrapy 2.3 減少下載超時
9. scrapy 2.3 禁用重定向
10. scrapy 2.3 啟用“Ajax可爬行頁”的爬行
11. scrapy 2.3 按BFO順序爬行
12. scrapy 2.3 注意內存泄漏
13. scrapy 2.3 安裝一個特殊的扭曲反應器
scrapy 2.3 使用瀏覽器的開發(fā)人員工具進行抓取
1. scrapy 2.3 檢查實時瀏覽器DOM時的注意事項
2. scrapy 2.3 查看網站
3. scrapy 2.3 網絡工具
scrapy 2.3 選擇動態(tài)加載的內容
1. scrapy 2.3 查找數(shù)據(jù)源
2. scrapy 2.3 檢查網頁的源代碼
3. scrapy 2.3 復制請求
4. scrapy 2.3 處理不同的響應格式
5. scrapy 2.3 分析javascript代碼
6. scrapy 2.3 預渲染JavaScript
7. scrapy 2.3 使用無頭瀏覽器
scrapy 2.3 調試內存泄漏
1. scrapy 2.3 內存泄漏的常見原因
2. scrapy 2.3 使用調試內存泄漏 trackref
3. scrapy 2.3 用muppy調試內存泄漏
4. scrapy 2.3 無泄漏泄漏
scrapy 2.3 下載和處理文件和圖像
1. scrapy 2.3 使用文件管道
2. scrapy 2.3 使用圖像管道
3. scrapy 2.3 啟用媒體管道
4. scrapy 2.3 支持的存儲
5. scrapy 2.3 圖像處理實例
6. scrapy 2.3 下載處理其他功能
7. scrapy 2.3 擴展媒體管道
8. scrapy 2.3 自定義圖像管道示例
scrapy 2.3 如何部署蜘蛛
scrapy 2.3 AutoThrottle擴展
scrapy 2.3 標桿管理
scrapy 2.3 暫停和恢復爬行
scrapy 2.3 協(xié)同程序
scrapy 2.3 asyncio

閱讀(1.8k) 書簽贊(0) 我要糾錯

scrapy 2.3 Feed導出設置

2021-06-09 11:26 更新

設置

以下是用于配置源導出的設置：

FEEDS （強制性）FEED_EXPORT_ENCODINGFEED_STORE_EMPTYFEED_EXPORT_FIELDSFEED_EXPORT_INDENTFEED_STORAGESFEED_STORAGE_FTP_ACTIVEFEED_STORAGE_S3_ACLFEED_EXPORTERSFEED_EXPORT_BATCH_ITEM_COUNT

FEEDS

2.1 新版功能.

違約： ?{{}}?

一個字典，其中每個鍵都是一個feed URI（或 ?pathlib.Path? 對象），每個值都是一個嵌套字典，其中包含特定提要的配置參數(shù)。

啟用提要導出功能需要此設置。

見存儲后端用于支持的URI方案。

例如：：

{
    'items.json': {
        'format': 'json',
        'encoding': 'utf8',
        'store_empty': False,
        'fields': None,
        'indent': 4,
        'item_export_kwargs': {
           'export_empty_fields': True,
        },
    },
    '/home/user/documents/items.xml': {
        'format': 'xml',
        'fields': ['name', 'price'],
        'encoding': 'latin1',
        'indent': 8,
    },
    pathlib.Path('items.csv'): {
        'format': 'csv',
        'fields': ['price', 'name'],
    },
}

以下是接受的鍵和設置的列表，如果沒有為特定的源定義提供該鍵，則該設置用作回退值：

?format? ： serialization format .此設置是必需的，沒有回退值。
?batch_item_count? ：回到 ?FEED_EXPORT_BATCH_ITEM_COUNT? .
?encoding? ：回到 ?FEED_EXPORT_ENCODING? .
?fields? ：回到 ?FEED_EXPORT_FIELDS? .
?indent? ：回到 ?FEED_EXPORT_INDENT? .
?item_export_kwargs?: ?dict? 對應的關鍵字參數(shù) item exporter class .
?overwrite? ：如果文件已存在，是否覆蓋該文件 (?True? )或附加到其內容中 (?False? ）默認值取決于 storage backend ：
本地文件系統(tǒng): ?False?
FTP: ?True?

注解

APPE

S3 ： ?True? （附加 is not supported ）
標準輸出： ?False? （不支持覆蓋）
?store_empty? ：回到 ?FEED_STORE_EMPTY? .
?uri_params? ：回到 ?FEED_URI_PARAMS? .

FEED_EXPORT_ENCODING

違約： ?None?

要用于源的編碼。

如果未設置或設置為 ?None? （默認）它對除JSON輸出外的所有內容都使用UTF-8，JSON輸出使用安全的數(shù)字編碼。 (?\uXXXX? 序列）出于歷史原因。

使用 ?utf-8? 如果您也想要為JSON使用UTF-8。

FEED_EXPORT_FIELDS

違約： ?None?

要導出的字段列表，可選。例子： FEED_EXPORT_FIELDS = ["foo", "bar", "baz"] .

使用feed_export_fields選項定義要導出的字段及其順序。

當FEED_EXPORT_FIELDS為空或?None?（默認值）時，Scrapy使用中定義的字段 item objects 你的蜘蛛屈服了。

如果導出器需要一組固定的字段（這是 CSV export format）和feed_export_字段為空或無，然后scrapy嘗試從導出的數(shù)據(jù)中推斷字段名-當前它使用第一個項目中的字段名。

FEED_EXPORT_INDENT

違約： ?0?

用于在每個級別上縮進輸出的空間量。如果 ?FEED_EXPORT_INDENT? 是非負整數(shù)，則數(shù)組元素和對象成員將以該縮進級別進行漂亮打印。縮進量 ?0? （默認值）或負數(shù)，將把每個項目放到一個新行上。 ?None? 選擇最緊湊的表示形式。

當前僅由執(zhí)行 ?JsonItemExporter? 和 ?XmlItemExporter? ，即當您要導出到 ?.json? 或 ?.xml? .

FEED_STORE_EMPTY

違約： ?False?

是否導出空源（即沒有項的源）。

FEED_STORAGES

違約： ?{{}}?

包含項目支持的其他提要存儲后端的dict。鍵是URI方案，值是指向存儲類的路徑。

FEED_STORAGE_FTP_ACTIVE

違約： ?False?

將源導出到FTP服務器時是否使用活動連接模式 (?True? ）或者使用被動連接模式 (?False? ，默認）。

有關ftp連接模式的信息，請參閱 What is the difference between active and passive FTP? .

FEED_STORAGE_S3_ACL

違約： ?''? （空字符串）

包含項目導出到AmazonS3的源的自定義ACL的字符串。

有關可用值的完整列表，請訪問 Canned ACL 亞馬遜S3文檔部分。

FEED_STORAGES_BASE

違約：：

{
    '': 'scrapy.extensions.feedexport.FileFeedStorage',
    'file': 'scrapy.extensions.feedexport.FileFeedStorage',
    'stdout': 'scrapy.extensions.feedexport.StdoutFeedStorage',
    's3': 'scrapy.extensions.feedexport.S3FeedStorage',
    'ftp': 'scrapy.extensions.feedexport.FTPFeedStorage',
}

包含由Scrapy支持的內置提要存儲后端的dict。您可以通過分配 ?None? 到他們的URI方案 ?FEED_STORAGES? . 例如，要禁用內置FTP存儲后端（不替換），請將其放入 ?settings.py? ：：

FEED_STORAGES = {
    'ftp': None,
}

FEED_EXPORTERS

違約： ?{{}}?

包含項目支持的其他導出器的dict。鍵是序列化格式，值是指向 Item exporter 類。

FEED_EXPORTERS_BASE

違約：：

{
    'json': 'scrapy.exporters.JsonItemExporter',
    'jsonlines': 'scrapy.exporters.JsonLinesItemExporter',
    'jl': 'scrapy.exporters.JsonLinesItemExporter',
    'csv': 'scrapy.exporters.CsvItemExporter',
    'xml': 'scrapy.exporters.XmlItemExporter',
    'marshal': 'scrapy.exporters.MarshalItemExporter',
    'pickle': 'scrapy.exporters.PickleItemExporter',
}

包含由Scrapy支持的內置飼料導出器的dict。您可以通過分配 ?None? 到其序列化格式 ?FEED_EXPORTERS? . 例如，要禁用內置的csv導出器（不替換），請將其放入 ?settings.py? ：：

FEED_EXPORTERS = {
    'csv': None,
}

FEED_EXPORT_BATCH_ITEM_COUNT

違約： ?0?

如果分配了一個大于 ?0? ，Scrapy生成多個輸出文件，每個輸出文件中最多存儲指定數(shù)量的項。

生成多個輸出文件時，必須在提要URI中至少使用以下一個占位符來指示如何生成不同的輸出文件名：

?%(batch_time)s? -在創(chuàng)建源時被時間戳替換（例如。 ?2020-03-28T14-45-08.237134? ）
%(batch_id)d -替換為批處理的從1開始的序列號。使用 printf-style string formatting 改變數(shù)字格式。例如，要根據(jù)需要引入前導零，使批次標識為5位數(shù)字，請使用 ?%(batch_id)05d? （例如） ?3? 變成 ?00003? ， ?123? 變成 ?00123? ）

例如，如果您的設置包括：

FEED_EXPORT_BATCH_ITEM_COUNT = 100

你的呢 ?crawl? 命令行是：

scrapy crawl spidername -o "dirname/%(batch_id)d-filename%(batch_time)s.json"

上面的命令行可以生成如下目錄樹：

->projectname
-->dirname
--->1-filename2020-03-28T14-45-08.237134.json
--->2-filename2020-03-28T14-45-09.148903.json
--->3-filename2020-03-28T14-45-10.046092.json

其中第一個和第二個文件正好包含100個項目。最后一個包含100個項目或更少。

注解某些FTP服務器可能不支持附加到文件（ APPE FTP命令）。S3 ： True （附加 is not supported ）標準輸出： False （不支持覆蓋） store_empty ：回到 FEED_STORE_EMPTY . uri_params ：回到 FEED_URI_PARAMS .

FEED_URI_PARAMS

違約： ?None?

包含函數(shù)導入路徑的字符串，用于設置要應用的參數(shù) printf-style string formatting 到源URI。

函數(shù)簽名應如下所示：

scrapy.extensions.feedexport.uri_params(params, spider)

返回A ?dict? 要應用于提要URI的鍵值對 printf-style string formatting .

參數(shù)

params (dict) -- 特定的默認鍵值對：- batch_id: ID of the file batch. See ?FEED_EXPORT_BATCH_ITEM_COUNT?. If ?FEED_EXPORT_BATCH_ITEM_COUNT? is 0, batch_id is always 1. - batch_time: UTC date and time, in ISO format with : replaced with `` -. 看到了嗎 :setting:`FEED_EXPORT_BATCH_ITEM_COUNT` . - ``time ： batch_time ，微秒設置為 0 .
spider (scrapy.spiders.Spider) -- 源蜘蛛的飼料項目

例如，包括 ?name? 源URI中源蜘蛛的：

在項目的某個地方定義以下函數(shù)：# myproject/utils.py def uri_params(params, spider): return {**params, 'spider_name': spider.name}
Point ?FEED_URI_PARAMS? 到您設置中的函數(shù)：：# myproject/settings.py FEED_URI_PARAMS = 'myproject.utils.uri_params'
使用 ?%(spider_name)s? 在你的源URI中：scrapy crawl <spider_name> -o "%(spider_name)s.jl"

以上內容是否對您有幫助：

← scrapy 2.3 存儲后端

scrapy 2.3 請求和響應 →

寫筆記

我要補充

scrapy 2.3 Feed導出設置

設置

FEEDS

FEED_EXPORT_ENCODING

FEED_EXPORT_FIELDS

FEED_EXPORT_INDENT

FEED_STORE_EMPTY

FEED_STORAGES

FEED_STORAGE_FTP_ACTIVE

FEED_STORAGE_S3_ACL

FEED_STORAGES_BASE

FEED_EXPORTERS

FEED_EXPORTERS_BASE

FEED_EXPORT_BATCH_ITEM_COUNT

FEED_URI_PARAMS

推薦文章

推薦教程

推薦課程