scrapy 2.3 如何運行我們的蜘蛛

2021-05-29 10:32 更新

要使蜘蛛正常工作，請轉(zhuǎn)到項目的頂級目錄并運行：

scrapy crawl quotes

此命令運行名為的spider ?quotes? 我們剛剛添加的，這將發(fā)送一些 ?quotes.toscrape.com? 領(lǐng)域。您將得到類似于以下內(nèi)容的輸出：

... (omitted for brevity)
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Spider opened
2016-12-16 21:24:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-12-16 21:24:05 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/2/> (referer: None)
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-1.html
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-2.html
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Closing spider (finished)
...

現(xiàn)在，檢查當(dāng)前目錄中的文件。您應(yīng)該注意到已經(jīng)創(chuàng)建了兩個新文件： quotes-1.html 和引用-2.HTML, 將各個URL的內(nèi)容作為 ?parse? 方法指示。

注解

如果您想知道為什么我們還沒有解析HTML，請稍等，我們很快就會討論這個問題。

引擎蓋下面發(fā)生了什么？

Scrapy安排了 ?scrapy.Request? 返回的對象 ?start_requests? 蜘蛛的方法。在接收到每個響應(yīng)時，它實例化 ?Response? 對象并調(diào)用與請求關(guān)聯(lián)的回調(diào)方法（在本例中，為 ?parse? 方法）將響應(yīng)作為參數(shù)傳遞。

以上內(nèi)容是否對您有幫助：

← scrapy 2.3 創(chuàng)建蜘蛛

scrapy 2.3 請求方法快捷方式 →

寫筆記

我要補(bǔ)充

scrapy 2.3 如何運行我們的蜘蛛

引擎蓋下面發(fā)生了什么？

推薦文章

推薦教程

推薦課程

引擎蓋下面發(fā)生了什么？