scrapy 2.3 如何運行我們的蜘蛛

2021-05-29 10:32 更新

要使蜘蛛正常工作,請轉(zhuǎn)到項目的頂級目錄并運行:

scrapy crawl quotes

此命令運行名為的spider ?quotes? 我們剛剛添加的,這將發(fā)送一些 ?quotes.toscrape.com? 領(lǐng)域。您將得到類似于以下內(nèi)容的輸出:

... (omitted for brevity)
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Spider opened
2016-12-16 21:24:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-12-16 21:24:05 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/2/> (referer: None)
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-1.html
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-2.html
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Closing spider (finished)
...

現(xiàn)在,檢查當(dāng)前目錄中的文件。您應(yīng)該注意到已經(jīng)創(chuàng)建了兩個新文件: quotes-1.html 和 引用-2.HTML, 將各個URL的內(nèi)容作為 ?parse? 方法指示。

注解

如果您想知道為什么我們還沒有解析HTML,請稍等,我們很快就會討論這個問題。

引擎蓋下面發(fā)生了什么?

Scrapy安排了 ?scrapy.Request? 返回的對象 ?start_requests? 蜘蛛的方法。在接收到每個響應(yīng)時,它實例化 ?Response? 對象并調(diào)用與請求關(guān)聯(lián)的回調(diào)方法(在本例中,為 ?parse? 方法)將響應(yīng)作為參數(shù)傳遞。


以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號