Python爬蟲基礎講解之爬蟲分類知識總結

w3cschool小編 2022-12-20 16:02:23 瀏覽數(shù) (2761)

反饋

很多讀者看到爬蟲是不是第一反應就想到了某些蛛形綱的節(jié)肢動物？其實在互聯(lián)網(wǎng)上爬蟲還有另一種解釋——網(wǎng)頁機器人。今天我們就來介紹一下這些網(wǎng)頁機器人的分類——互聯(lián)網(wǎng)爬蟲分類和一些python爬蟲基礎知識吧。

一、通用爬蟲

通用網(wǎng)絡爬蟲是搜索引擎抓取系統(tǒng)(Baidu、Google、Sogou等)的一個重要組成部分。主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地，形成一個互聯(lián)網(wǎng)內(nèi)容的鏡像備份。為搜索引擎提供搜索支持。

爬蟲示意圖

第一步

搜索引擎去成千上萬個網(wǎng)站抓取數(shù)據(jù)。

第二步

搜索引擎通過爬蟲爬取到的網(wǎng)頁，將數(shù)據(jù)存入原始頁面數(shù)據(jù)庫(也就是文檔庫)。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全—樣的。

第三步

搜索引擎將爬蟲抓取回來的頁面，進行各種步驟的預處理:中文分詞，消除噪音，索引處理······

搜索引擎在對信息進行組織和處理后，為用戶提供關鍵字檢索服務，將用戶檢索相關的信息展示給用戶。展示的時候會進行排名。

二、搜索引擎的局限性

搜索引擎抓取的是整個網(wǎng)頁，不是具體詳細的信息。
搜索引擎無法提供針對具體某個客戶需求的搜索結果。

聚焦爬蟲

針對通用爬蟲的這些情況，聚焦爬蟲技術得以廣泛使用。聚焦爬蟲，是"面向特定主題需求"的一種網(wǎng)絡爬蟲程序，它與通用搜索引擎爬蟲的區(qū)別在于：聚焦爬蟲在實施網(wǎng)頁抓取時會對內(nèi)容進行處理篩選，盡量保證只抓取與需求相關的網(wǎng)頁數(shù)據(jù)。

三、Robots協(xié)議

robots是網(wǎng)站跟爬蟲間的協(xié)議，用簡單直接的txt格式文本方式告訴對應的爬蟲被允許的權限，也就是說robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。當一個搜索蜘蛛訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護的頁面?！俣劝倏?/p>

Robots協(xié)議也叫爬蟲協(xié)議、機器人協(xié)議等，全稱是“網(wǎng)絡爬蟲排除標準”(Robots ExclusionProtocol)，網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取，例如: