scrapy 2.3 調(diào)試spiders

2021-06-16 10:07 更新

本文介紹了調(diào)試spider的最常用技術(shù)。請(qǐng)考慮下面的蜘蛛:

import scrapy
from myproject.items import MyItem

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = (
        'http://example.com/page1',
        'http://example.com/page2',
        )

    def parse(self, response):
        # <processing code not shown>
        # collect `item_urls`
        for item_url in item_urls:
            yield scrapy.Request(item_url, self.parse_item)

    def parse_item(self, response):
        # <processing code not shown>
        item = MyItem()
        # populate `item` fields
        # and extract item_details_url
        yield scrapy.Request(item_details_url, self.parse_details, cb_kwargs={'item': item})

    def parse_details(self, response, item):
        # populate more `item` fields
        return item

基本上,這是一個(gè)簡(jiǎn)單的spider,它解析兩頁(yè)項(xiàng)目(start-url)。項(xiàng)目還有一個(gè)包含附加信息的詳細(xì)信息頁(yè),因此我們使用 ?cb_kwargs? 的功能 ?Request? 傳遞部分填充的項(xiàng)。

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)