W3Cschool
恭喜您成為首批注冊用戶
獲得88經(jīng)驗值獎勵
要使蜘蛛正常工作,請轉(zhuǎn)到項目的頂級目錄并運行:
scrapy crawl quotes
此命令運行名為的spider ?quotes
? 我們剛剛添加的,這將發(fā)送一些 ?quotes.toscrape.com
? 領(lǐng)域。您將得到類似于以下內(nèi)容的輸出:
... (omitted for brevity)
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Spider opened
2016-12-16 21:24:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-12-16 21:24:05 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/2/> (referer: None)
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-1.html
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-2.html
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Closing spider (finished)
...
現(xiàn)在,檢查當(dāng)前目錄中的文件。您應(yīng)該注意到已經(jīng)創(chuàng)建了兩個新文件: quotes-1.html 和 引用-2.HTML, 將各個URL的內(nèi)容作為 ?parse
? 方法指示。
注解
如果您想知道為什么我們還沒有解析HTML,請稍等,我們很快就會討論這個問題。
Scrapy安排了 ?scrapy.Request
? 返回的對象 ?start_requests
? 蜘蛛的方法。在接收到每個響應(yīng)時,它實例化 ?Response
? 對象并調(diào)用與請求關(guān)聯(lián)的回調(diào)方法(在本例中,為 ?parse
? 方法)將響應(yīng)作為參數(shù)傳遞。
Copyright©2021 w3cschool編程獅|閩ICP備15016281號-3|閩公網(wǎng)安備35020302033924號
違法和不良信息舉報電話:173-0602-2364|舉報郵箱:jubao@eeedong.com
掃描二維碼
下載編程獅App
編程獅公眾號
聯(lián)系方式:
更多建議: