手機(jī)也能上課
1/6
Scrapy框架認(rèn)知
Scrapy 是一款由 Python 語(yǔ)言開發(fā)高效的爬蟲框架,使用 lxml(專業(yè)的 XML 處理包)、cssselect 高效地提取 HTML 頁(yè)面的有效信息,同時(shí)它也提供了有效的線程管理。
可能你會(huì)有疑問,requests 和 urllib 同樣是爬蟲,為什么我們要使用 Scrapy 網(wǎng)絡(luò)請(qǐng)求框架?
因?yàn)?Scrapy 使用了 Twisted 異步網(wǎng)絡(luò)框架來(lái)處理網(wǎng)絡(luò)通訊。如此,開發(fā)者不用自己去實(shí)現(xiàn)異步框架,且下載速度可以更快。Scrapy 還包含了各種中間件接口,可以靈活的完成各種需求。
在學(xué)習(xí) Scrapy 框架之前,建議您對(duì) python 語(yǔ)言、xpath 語(yǔ)法、正則表達(dá)式、html 狀態(tài)碼等網(wǎng)絡(luò)爬蟲知識(shí)有初步的了解。