scrapy 2.3 安裝指南
1. scrapy 2.3 安裝教程
2. scrapy 2.3 Windows環(huán)境搭建教程
3. scrapy 2.3 Ubuntu環(huán)境搭建教程
4. scrapy 2.3 macOS環(huán)境搭建教程
5. scrapy 2.3 PyPy環(huán)境搭建教程
6. scrapy 2.3 故障排除
scrapy 2.3 教程
1. scrapy 2.3 創(chuàng)建項目
2. scrapy 2.3 創(chuàng)建蜘蛛
3. scrapy 2.3 如何運行我們的蜘蛛
4. scrapy 2.3 請求方法快捷方式
5. scrapy 2.3 提取數(shù)據(jù)
6. scrapy 2.3 在蜘蛛中提取數(shù)據(jù)
7. scrapy 2.3 存儲抓取的數(shù)據(jù)
8. scrapy 2.3 數(shù)據(jù)抓取實例
9. scrapy 2.3 蜘蛛?yún)?shù)
scrapy 2.3 命令行工具
1. scrapy 2.3 配置設(shè)置
2. scrapy 2.3 報廢項目的默認結(jié)構(gòu)
3. scrapy 2.3 在項目之間共享根目錄
4. scrapy 2.3 工具
5. scrapy 2.3 可用工具命令
6. scrapy 2.3 自定義項目命令
scrapy 2.3 蜘蛛
1. scrapy 2.3 scrapy.Spider
2. scrapy 2.3 蜘蛛爬取參數(shù)
3. scrapy 2.3 類蜘蛛CrawlSpider
4. scrapy 2.3 XMLFeedSpider
5. scrapy 2.3 CSVFeedSpider
6. scrapy 2.3 SitemapSpider
scrapy 2.3 選擇器
1. scrapy 2.3 使用選擇器
2. scrapy 2.3 使用xpaths
3. scrapy 2.3 內(nèi)置選擇器引
  1. scrapy 2.3 SelectorList對象
4. scrapy 2.3 選擇器實例
  1. scrapy 2.3 HTML響應(yīng)的選擇器示例
  2. scrapy 2.3 XML響應(yīng)的選擇器示例
scrapy 2.3 項目
1. scrapy 2.3 項目類型
2. scrapy 2.3 使用項目對象
3. scrapy 2.3 支持所有項目類型
4. scrapy 2.3 與項目相關(guān)的其他類別
scrapy 2.3 項目加載器
1. scrapy 2.3 使用項目加載器填充項目
2. scrapy 2.3 使用dataclass項
3. scrapy 2.3 輸入和輸出處理器
4. scrapy 2.3 聲明項加載器
5. scrapy 2.3 聲明輸入和輸出處理器
6. scrapy 2.3 項目加載器上下文
7. scrapy 2.3 嵌套裝載機
8. scrapy 2.3 重復(fù)使用和擴展項目加載器
scrapy 2.3 shell
1. scrapy 2.3 配置shell
2. scrapy 2.3 shell啟動外殼
3. scrapy 2.3 shell使用外殼
  1. scrapy 2.3 shell可用快捷方式
  2. scrapy 2.3 Shell可用對象
4. scrapy 2.3 Shell會話示例
5. scrapy 2.3 從spiders調(diào)用shell來檢查響應(yīng)
scrapy 2.3 項目管道
1. scrapy 2.3 編寫自己的項目管道
2. scrapy 2.3 項目管道示例
3. scrapy 2.3 激活項目管道組件
scrapy 2.3 Feed導(dǎo)出
1. scrapy 2.3 序列化格式
2. scrapy 2.3 儲藏室
3. scrapy 2.3 存儲URI參數(shù)
4. scrapy 2.3 存儲后端
5. scrapy 2.3 Feed導(dǎo)出設(shè)置
scrapy 2.3 請求和響應(yīng)
1. 無標題文章
2. scrapy 2.3 停止下載響應(yīng)
3. scrapy 2.3 請求子類
  1. scrapy 2.3 FormRequest對象
4. scrapy 2.3 響應(yīng)子類
scrapy 2.3 鏈接提取器
scrapy 2.3 設(shè)置
1. scrapy 2.3 填充設(shè)置
2. scrapy 2.3 導(dǎo)入路徑和類
3. scrapy 2.3 如何訪問設(shè)置
4. scrapy 2.3 內(nèi)置設(shè)置參考
scrapy 2.3 內(nèi)置異常引用
scrapy 2.3 登錄
1. scrapy 2.3 日志級別
2. scrapy 2.3 如何記錄消息
3. scrapy 2.3 從蜘蛛記錄
4. scrapy 2.3 日志記錄配置
scrapy 2.3 統(tǒng)計數(shù)據(jù)集合
1. scrapy 2.3 常用統(tǒng)計信息收集器使用
scrapy 2.3 發(fā)送電子郵件
1. scrapy 2.3 郵件設(shè)置
scrapy 2.3 遠程登錄控制臺
1. scrapy 2.3 telnet控制臺中的可用變量
2. scrapy 2.3 telnet控制臺使用示例
3. scrapy 2.3 Telnet控制臺信號
4. scrapy 2.3 遠程登錄設(shè)置
scrapy 2.3 常見問題
1. Scrapy與BeautifulSoup或LXML相比如何
2. BeautifulSoup能和Scrapy一起使用嗎？
3. Scrapy是否從Django“竊取”X？
4. Scrapy能與HTTP代理一起工作嗎？
5. Scrapy是以廣度優(yōu)先還是深度優(yōu)先的順序爬行？
6. 響應(yīng)狀態(tài)代碼999是什么意思？
7. 我可以從我的蜘蛛調(diào)用``pdb.set_trace（）``來調(diào)試它們嗎？
8. 如何將我的所有抓取項轉(zhuǎn)儲到j(luò)son/csv/xml文件中？
9. 我應(yīng)該使用蜘蛛?yún)?shù)或設(shè)置來配置我的蜘蛛嗎？
10. 如何在項目管道中將項目拆分為多個項目？
scrapy 2.3 調(diào)試spiders
1. scrapy 2.3 解析命令
2. scrapy 2.3 Scrapy Shell
3. scrapy 2.3 在瀏覽器中打開
4. scrapy 2.3 登錄
scrapy 2.3 蜘蛛合約
1. scrapy 2.3 正在檢測檢查運行
scrapy 2.3 常用做法
1. scrapy 2.3 怎么從腳本中運行
2. scrapy 2.3 在同一進程中運行多個spider
3. scrapy 2.3 分布式爬行
4. scrapy 2.3 避免被禁止
scrapy 2.3 寬爬行
1. scrapy 2.3 使用權(quán)利
2. scrapy 2.3 增加并發(fā)性
3. scrapy 2.3 增加Twisted IO線程池的最大大小
4. scrapy 2.3 設(shè)置您自己的DNS
5. scrapy 2.3 降低日志級別
6. scrapy 2.3 禁用Cookie
7. scrapy 2.3 禁用重試
8. scrapy 2.3 減少下載超時
9. scrapy 2.3 禁用重定向
10. scrapy 2.3 啟用“Ajax可爬行頁”的爬行
11. scrapy 2.3 按BFO順序爬行
12. scrapy 2.3 注意內(nèi)存泄漏
13. scrapy 2.3 安裝一個特殊的扭曲反應(yīng)器
scrapy 2.3 使用瀏覽器的開發(fā)人員工具進行抓取
1. scrapy 2.3 檢查實時瀏覽器DOM時的注意事項
2. scrapy 2.3 查看網(wǎng)站
3. scrapy 2.3 網(wǎng)絡(luò)工具
scrapy 2.3 選擇動態(tài)加載的內(nèi)容
1. scrapy 2.3 查找數(shù)據(jù)源
2. scrapy 2.3 檢查網(wǎng)頁的源代碼
3. scrapy 2.3 復(fù)制請求
4. scrapy 2.3 處理不同的響應(yīng)格式
5. scrapy 2.3 分析javascript代碼
6. scrapy 2.3 預(yù)渲染JavaScript
7. scrapy 2.3 使用無頭瀏覽器
scrapy 2.3 調(diào)試內(nèi)存泄漏
1. scrapy 2.3 內(nèi)存泄漏的常見原因
2. scrapy 2.3 使用調(diào)試內(nèi)存泄漏 trackref
3. scrapy 2.3 用muppy調(diào)試內(nèi)存泄漏
4. scrapy 2.3 無泄漏泄漏
scrapy 2.3 下載和處理文件和圖像
1. scrapy 2.3 使用文件管道
2. scrapy 2.3 使用圖像管道
3. scrapy 2.3 啟用媒體管道
4. scrapy 2.3 支持的存儲
5. scrapy 2.3 圖像處理實例
6. scrapy 2.3 下載處理其他功能
7. scrapy 2.3 擴展媒體管道
8. scrapy 2.3 自定義圖像管道示例
scrapy 2.3 如何部署蜘蛛
scrapy 2.3 AutoThrottle擴展
scrapy 2.3 標桿管理
scrapy 2.3 暫停和恢復(fù)爬行
scrapy 2.3 協(xié)同程序
scrapy 2.3 asyncio

閱讀(2.1k) 書簽贊(0) 我要糾錯

scrapy 2.3 可用工具命令

2021-06-09 10:05 更新

可用工具命令

本節(jié)包含可用的內(nèi)置命令列表，其中包含說明和一些用法示例。記住，您可以通過運行以下命令獲取有關(guān)每個命令的更多信息：

scrapy <command> -h

您可以使用以下命令查看所有可用命令：

scrapy -h

有兩種命令，一種是只從零碎項目（特定于項目的命令）內(nèi)部工作的命令，另一種是不使用活動零碎項目（全局命令）的命令，盡管從項目內(nèi)部運行時它們的行為可能略有不同（因為它們將使用項目覆蓋設(shè)置）。

全局命令：

?startproject?
?genspider?
?settings?
?runspider?
?shell?
?fetch?
?view?
?version?

僅Project命令：

?crawl?
?check?
?list?
?edit?
?parse?
?bench?

啟動項目

Syntax： ?scrapy startproject <project_name> [project_dir]?
需要項目： no

創(chuàng)建一個名為 ?project_name? 下 ?project_dir? 目錄。如果 ?project_dir? 沒有指定， ?project_dir? 將與 ?project_name? .

使用實例：

$ scrapy startproject myproject

基因蜘蛛

Syntax： ?scrapy genspider [-t template] <name> <domain>?
需要項目： no

在當(dāng)前文件夾或當(dāng)前項目的 ?spiders? 文件夾（如果從項目內(nèi)部調(diào)用）。這個 ?<name>? 參數(shù)設(shè)置為spider的 ?name? ，同時 ?<domain>? 用于生成 ?allowed_domains? 和 ?start_urls? 蜘蛛的屬性。

使用實例：

$ scrapy genspider -l
Available templates:
  basic
  crawl
  csvfeed
  xmlfeed

$ scrapy genspider example example.com
Created spider 'example' using template 'basic'

$ scrapy genspider -t crawl scrapyorg scrapy.org
Created spider 'scrapyorg' using template 'crawl'

這只是一個基于預(yù)先定義的模板創(chuàng)建spider的快捷命令，但肯定不是創(chuàng)建spider的唯一方法。您可以自己創(chuàng)建蜘蛛源代碼文件，而不是使用這個命令。

爬行

Syntax： ?scrapy crawl <spider>?
需要項目： yes

開始用蜘蛛爬行。

用法示例：

$ scrapy crawl myspider
[ ... myspider starts crawling ... ]

檢查

Syntax： ?scrapy check [-l] <spider>?
需要項目： yes

運行合同檢查。

用法示例：

$ scrapy check -l
first_spider
  * parse
  * parse_item
second_spider
  * parse
  * parse_item

$ scrapy check
[FAILED] first_spider:parse_item
>>> 'RetailPricex' field is missing

[FAILED] first_spider:parse
>>> Returned 92 requests, expected 0..4

列表

Syntax： ?scrapy list?
需要項目： yes

列出當(dāng)前項目中所有可用的spider。每行輸出一個蜘蛛。

使用實例：

$ scrapy list
spider1
spider2

編輯

Syntax： ?scrapy edit <spider>?
需要項目： yes

使用中定義的編輯器編輯給定的蜘蛛 EDITOR 環(huán)境變量或（如果未設(shè)置） ?EDITOR? 設(shè)置。

這個命令僅作為最常見情況下的快捷方式提供，開發(fā)人員當(dāng)然可以自由選擇任何工具或IDE來編寫和調(diào)試spider。

使用實例：

$ scrapy edit spider1

取來

Syntax： ?scrapy fetch <url>?
需要項目： no

使用ScrapyDownloader下載給定的URL，并將內(nèi)容寫入標準輸出。

這個命令的有趣之處在于它獲取了蜘蛛如何下載它的頁面。例如，如果蜘蛛 ?USER_AGENT? 覆蓋用戶代理的屬性，它將使用該屬性。

所以這個命令可以用來“查看”蜘蛛如何獲取特定的頁面。

如果在項目之外使用，則不會應(yīng)用特定的每蜘蛛行為，它只會使用默認的scrapy下載器設(shè)置。

支持的選項：

?--spider=SPIDER? ：繞過Spider自動檢測并強制使用特定Spider
?--headers? ：打印響應(yīng)的HTTP頭而不是響應(yīng)的正文
?--no-redirect? ：不遵循HTTP 3xx重定向（默認為遵循它們）

用法示例：

$ scrapy fetch --nolog http://www.example.com/some/page.html
[ ... html content here ... ]

$ scrapy fetch --nolog --headers http://www.example.com/
{'Accept-Ranges': ['bytes'],
 'Age': ['1263   '],
 'Connection': ['close     '],
 'Content-Length': ['596'],
 'Content-Type': ['text/html; charset=UTF-8'],
 'Date': ['Wed, 18 Aug 2010 23:59:46 GMT'],
 'Etag': ['"573c1-254-48c9c87349680"'],
 'Last-Modified': ['Fri, 30 Jul 2010 15:30:18 GMT'],
 'Server': ['Apache/2.2.3 (CentOS)']}

看法

Syntax： ?scrapy view <url>?
需要項目： no

在瀏覽器中打開給定的URL，因為您的廢蜘蛛會“看到”它。有時候蜘蛛看到的頁面與普通用戶不同，所以這可以用來檢查蜘蛛“看到”什么，并確認它是你所期望的。

支持的選項：

?--spider=SPIDER? ：繞過Spider自動檢測并強制使用特定Spider
?--no-redirect：不遵循HTTP 3xx重定向（默認為遵循它們）

使用實例：

$ scrapy view http://www.example.com/some/page.html
[ ... browser starts ... ]

殼

Syntax： ?scrapy shell [url]?
需要項目： no

為給定的URL（如果給定）啟動scrapy shell；如果沒有給定URL，則為空。還支持Unix風(fēng)格的本地文件路徑，無論是相對于 ./ 或 ../ 前綴或絕對文件路徑。見 Scrapy shell 更多信息。

支持的選項：

?--spider=SPIDER? ：繞過Spider自動檢測并強制使用特定Spider
?-c code? ：評估shell中的代碼，打印結(jié)果并退出
?--no-redirect? ：不遵循HTTP 3xx重定向（默認為遵循它們）；這只影響在命令行上作為參數(shù)傳遞的URL；一旦進入shell， ?fetch(url)? 默認情況下仍將遵循HTTP重定向。

使用實例：

$ scrapy shell http://www.example.com/some/page.html
[ ... scrapy shell starts ... ]

$ scrapy shell --nolog http://www.example.com/ -c '(response.status, response.url)'
(200, 'http://www.example.com/')

# shell follows HTTP redirects by default
$ scrapy shell --nolog http://httpbin.org/redirect-to?url=http%3A%2F%2Fexample.com%2F -c '(response.status, response.url)'
(200, 'http://example.com/')

# you can disable this with --no-redirect
# (only for the URL passed as command line argument)
$ scrapy shell --no-redirect --nolog http://httpbin.org/redirect-to?url=http%3A%2F%2Fexample.com%2F -c '(response.status, response.url)'
(302, 'http://httpbin.org/redirect-to?url=http%3A%2F%2Fexample.com%2F')

解析

Syntax： ?scrapy parse <url> [options]?
需要項目： yes

獲取給定的URL，并使用處理它的spider，使用 ?--callback? 選項，或 ?parse? 如果沒有給出。

支持的選項：

?--spider=SPIDER? ：繞過Spider自動檢測并強制使用特定Spider
?--a NAME=VALUE? ：set spider參數(shù)（可以重復(fù)）
?--callback? 或 ?-c? ：用作分析響應(yīng)的回調(diào)的spider方法
?--meta? 或 ?-m? ：將傳遞給回調(diào)請求的附加請求元。這必須是有效的JSON字符串。示例：--meta='“foo”：“bar”'
?--cbkwargs? ：將傳遞給回調(diào)的其他關(guān)鍵字參數(shù)。這必須是有效的JSON字符串。示例：--cbkwargs='“foo”：“bar”'
?--pipelines? ：通過管道處理項目
?--rules? 或 ?-r? 使用 ?CrawlSpider? 發(fā)現(xiàn)用于解析響應(yīng)的回調(diào)（即spider方法）的規(guī)則
?--noitems? ：不顯示爬取的項目
?--nolinks? ：不顯示提取的鏈接
?--nocolour? ：避免使用Pygments對輸出著色
?--depth? 或 ?-d? ：應(yīng)遞歸執(zhí)行請求的深度級別（默認值：1）
?--verbose? 或 ?-v? ：顯示每個深度級別的信息
?--output? 或 ?-o? ：將刮取的項目轉(zhuǎn)儲到文件2.3 新版功能.

使用實例：

$ scrapy parse http://www.example.com/ -c parse_item
[ ... scrapy log lines crawling example.com spider ... ]

>>> STATUS DEPTH LEVEL 1 <<<
# Scraped Items  ------------------------------------------------------------
[{'name': 'Example item',
 'category': 'Furniture',
 'length': '12 cm'}]

# Requests  -----------------------------------------------------------------
[]

設(shè)置

Syntax： ?scrapy settings [options]?
需要項目： no

獲取 Scrapy 設(shè)置的值。

如果在項目中使用，它將顯示項目設(shè)置值，否則它將顯示該設(shè)置的默認 Scrapy 值。

示例用法：

$ scrapy settings --get BOT_NAME
scrapybot
$ scrapy settings --get DOWNLOAD_DELAY
0

運行蜘蛛

Syntax： ?scrapy runspider <spider_file.py>?
需要項目： no

運行一個包含在python文件中的spider，而不必創(chuàng)建一個項目。

示例用法：

$ scrapy runspider myspider.py
[ ... spider starts crawling ... ]

版本

?Syntax： scrapy version [-v]?
需要項目： no

打印殘缺版本。如果使用 ?-v? 它還打印python、twisted和platform信息，這對bug報告很有用。

長凳

Syntax： ?scrapy bench?
需要項目： no

運行一個快速基準測試。標桿管理 .

以上內(nèi)容是否對您有幫助：

← scrapy 2.3 工具

scrapy 2.3 自定義項目命令 →

寫筆記

我要補充

scrapy 2.3 可用工具命令

可用工具命令

啟動項目

基因蜘蛛

爬行

檢查

列表

編輯

取來

看法

殼

解析

設(shè)置

運行蜘蛛

版本

長凳

推薦文章

推薦教程

推薦課程