鏈接提交

2020-08-19 18:07 更新

如何選擇鏈接提交方式

主動推送:最為快速的提交方式,建議您將站點當(dāng)天新產(chǎn)出鏈接立即通過此方式推送給百度,以保證新鏈接可以及時被百度收錄。

sitemap:您可以定期將網(wǎng)站鏈接放到Sitemap中,然后將Sitemap提交給百度。百度會周期性的抓取檢查您提交的Sitemap,對其中的鏈接進行處理,但收錄速度慢于主動推送。

手工提交:如果您不想通過程序提交,那么可以采用此種方式,手動將鏈接提交給百度。

使用主動推送功能會達到怎樣效果


及時發(fā)現(xiàn):可以縮短百度爬蟲發(fā)現(xiàn)您站點新鏈接的時間,使新發(fā)布的頁面可以在第一時間被百度收錄
保護原創(chuàng):對于網(wǎng)站的最新原創(chuàng)內(nèi)容,使用主動推送功能可以快速通知到百度,使內(nèi)容可以在轉(zhuǎn)發(fā)之前被百度發(fā)現(xiàn)

如何使用主動推送功能

1,需要網(wǎng)站制作數(shù)據(jù)推送接口,進入主動推送工具后,會看到接口調(diào)用地址的token,token是由16個英文數(shù)字組合的字符串

2,下面提供一些推送示例
1)curl推送示例
將要提交的url數(shù)據(jù)寫入一個本地文件,比如urls.txt,每個url占一行,然后調(diào)用curl命令:
curl -H 'Content-Type:text/plain' --data-binary @urls.txt
"http://data.zz.baidu.com/urls?site=www.example.com&token=edk7yc4rEZP9pDQD"
使用php、python、java等可以參照這個過程推送結(jié)構(gòu)化數(shù)據(jù)。

2)post推送示例
POST /urls?site=www.58.com&token=edk7ychrEZP9pDQD HTTP/1.1
User-Agent: curl/7.12.1 
Host: data.zz.baidu.com 
Content-Length: 83
http://www.example.com/1.html
http://www.example.com/2.html

3)php推送示例
$urls = array(
    'http://www.example.com/1.html',
    'http://www.example.com/2.html',
);
$api = 'http://data.zz.baidu.com/urls
site=www.58.com&token=edk7ychrEZP9pDQD';
$ch = curl_init();
$options =  array(
    CURLOPT_URL => $api,
    CURLOPT_POST => true,
    CURLOPT_RETURNTRANSFER => true,
    CURLOPT_POSTFIELDS => implode("\n", $urls),
    CURLOPT_HTTPHEADER => array('Content-Type: text/plain'),
);
curl_setopt_array($ch, $options);
$result = curl_exec($ch);
echo $result;

4)ruby推送示例
require 'net/http'
urls = ['http://www.example.com/1.html', 'http://www.example.com/2.html']
uri = URI.parse('http://data.zz.baidu.com/urls
site=www.xxx.com&token=eTk7ychrWZP1pDQD')
req = Net::HTTP::Post.new(uri.request_uri)
req.body = urls.join("\n")
req.content_type = 'text/plain'
res = Net::HTTP.start(uri.hostname, uri.port) { |http| http.request(req) }
puts res.body

如何查看推送反饋

您可以通過推送后返回的狀態(tài)碼和字段來判斷數(shù)據(jù)是否推送成功。
1,狀態(tài)碼為200,表示推送成功,可能返回以下字段:

字段

是否必選

參數(shù)類型

說明

success

int

成功推送的url條數(shù)

remain

int

當(dāng)天剩余的可推送url條數(shù)

not_same_site

array

由于不是本站url而未處理的url列表

not_valid

array

不合法的url列表

 成功返回示例:
{
   "remain":4999998,
   "success":2,
   "not_same_site":[],
   "not_valid":[]
}

2,狀態(tài)碼為4XX或500,表示推送失敗,返回字段有:

字段

是否必選

類型

說明

error

int

錯誤碼,與狀態(tài)碼相同

message

string

錯誤描述

 
常見的推送失敗返回示例說明:

error

message

含義

400

site error

站點未在站長平臺驗證

empty content

post內(nèi)容為空

only 2000 urls are allowed once

每次最多只能提交2000條鏈接

over quota

超過每日配額了,超配額后再提交都是無效的

401

token is not valid

token錯誤

404

not found

接口地址填寫錯誤

500

internal error, please try later

服務(wù)器偶然異常,通常重試就會成功


主動推送功能常見問題

1, 和原來的sitemap提交接口有什么區(qū)別?
        答:狀態(tài)反饋更及時了,原來提交后需要登錄到站長平臺查看提交是否成功。目前只要根據(jù)提交后返回的數(shù)據(jù)就可以判斷了。

2, 已經(jīng)存在的提交sitemap數(shù)據(jù)的程序代碼需要做什么修改?
        答:主要修改兩點。第一點,提交的接口需要修改;第二點,需要處理下接口返回的信息,失敗后需要根據(jù)錯誤進行相應(yīng)處理,報錯的鏈接是無法提交成功的

3,為什么提交成功后看不到數(shù)據(jù)變化?
        答:我們反饋的是新提交鏈接的數(shù)量,如果您提交的鏈接在之前提交過(即重復(fù)提交)是不會被統(tǒng)計到的

4,在什么時機使用主動推送提交功能效果最明顯?
        答:頁面鏈接產(chǎn)生或發(fā)布時立即提交,這樣效果是最好的 

5,每次提交一條數(shù)據(jù)和多條數(shù)據(jù)有什么區(qū)別?
        答:沒有區(qū)別 

6,重復(fù)提交已經(jīng)發(fā)布的鏈接會有什么問題?
        答:會有兩個影響。第一,將浪費您提交的配額,每個站點每天可提交的數(shù)量是有限制的,如果您都提交了舊鏈接,當(dāng)有新鏈接時可能因為配額耗盡無法提交。第二,如果您經(jīng)常重復(fù)提交舊鏈接,我們會下調(diào)您的配額,您可能會失去主動推送功能的權(quán)限

7,主動推送可以推多少條鏈接?
        答:主動推送可提交的鏈接數(shù)量上限是根據(jù)您提交的新產(chǎn)生有價值鏈接數(shù)量而決定的,百度會根據(jù)您提交數(shù)量的情況不定期對上限額進行調(diào)整,提交的新產(chǎn)生有價值鏈接數(shù)量越多,可提交鏈接的上限越高。

 

什么是Sitemap

Sitemap(即站點地圖)就是您網(wǎng)站上各網(wǎng)頁的列表。創(chuàng)建并提交Sitemap有助于百度發(fā)現(xiàn)并了解您網(wǎng)站上的所有網(wǎng)頁。您還可以使用Sitemap提供有關(guān)您網(wǎng)站的其他信息,如上次更新日期、Sitemap文件的更新頻率等,供百度Spider參考。

百度對已提交的數(shù)據(jù),不保證一定會抓取及索引所有網(wǎng)址。但是,我們會使用Sitemap中的數(shù)據(jù)來了解網(wǎng)站的結(jié)構(gòu)等信息,這樣可以幫助我們改進抓取策略,并在日后能更好地對網(wǎng)站進行抓取。

此外,Sitemap 與搜索排名沒有關(guān)系。 


百度Sitemap支持哪些格式

百度Sitemap協(xié)議支持三種格式:文本格式、xml格式、Sitemap索引格式,可以根據(jù)自己情況來選擇任意一種格式組織sitemap。具體格式說明及示例如下:

1.第一種格式樣例:txt文本格式

在一個txt文本列明需要向百度提交的鏈接地址,將txt文本文件通過站長平臺進行提交    
http://www.example.com/repaste/101562698_5230191316.html
http://www.example.com/repaste/101586283_5230215075.html
http://www.example.com/repaste/101639435_5230310576.html  

此文本文件需要遵循以下指南:
· 文本文件每行都必須有一個網(wǎng)址。網(wǎng)址中不能有換行。
· 不應(yīng)包含網(wǎng)址列表以外的任何信息。
· 您必須書寫完整的網(wǎng)址,包括 http。
· 每個文本文件最多可包含 50,000 個網(wǎng)址,并且應(yīng)小于10MB(10,485,760字節(jié))。如果網(wǎng)站所包含的網(wǎng)址超過 50,000 個,則可將列表分割成多個文本文件,然后分別添加每個文件。
· 文本文件需使用 UTF-8 編碼或GBK編碼。  

2.第二種格式樣例:xml格式

單個xml數(shù)據(jù)格式如下:
<?xml version="1.0" encoding="utf-8"?>
<!-- XML文件需以utf-8編碼-->
<urlset>
<!--必填標(biāo)簽-->
    <url>
        <!--必填標(biāo)簽,這是具體某一個鏈接的定義入口,每一條數(shù)據(jù)都要用<url>和</url>包含在里面,這是必須的 -->
        <loc>http://www.yoursite.com/yoursite.html</loc>
        <!--必填,URL鏈接地址,長度不得超過256字節(jié)-->
        <lastmod>2009-12-14</lastmod>
        <!--可以不提交該標(biāo)簽,用來指定該鏈接的最后更新時間-->
        <changefreq>daily</changefreq>
        <!--可以不提交該標(biāo)簽,用這個標(biāo)簽告訴此鏈接可能會出現(xiàn)的更新頻率 -->
        <priority>0.8</priority>
        <!--可以不提交該標(biāo)簽,用來指定此鏈接相對于其他鏈接的優(yōu)先權(quán)比值,此值定于0.0-1.0之間-->
    </url>


    <url>
        <loc>http://www.yoursite.com/yoursite2.html</loc>
        <lastmod>2010-05-01</lastmod>
        <changefreq>daily</changefreq>
        <priority>0.8</priority>
    </url>
</urlset>
上述Sitemap向百度提交了一個url:http://www.yoursite.com/yoursite.html 


若有多條url,按照上述格式重復(fù)之間的片斷,列明所有url地址,打包到一個xml文件,向站長平臺進行提交。


創(chuàng)建Sitemap時有哪些注意事項?

第一,一個Sitemap文件包含的網(wǎng)址不得超過 5 萬個,且文件大小不得超過 10 MB。如果您的Sitemap超過了這些限值,請將其拆分為幾個小的Sitemap。這些限制條件有助于確保您的網(wǎng)絡(luò)服務(wù)器不會因提供大文件而超載。

第二,一個站點支持提交的sitemap文件個數(shù)必須小于5萬個,多于5萬個后會不再處理,并顯示“鏈接數(shù)超”的提示。    

第三,如果驗證了網(wǎng)站的主域,那么Sitemap文件中可包含該網(wǎng)站主域下的所有網(wǎng)址。


如何提交Sitemap

第一步,將需提交的網(wǎng)頁列表制作成一個Sitemap文件,文件格式請閱讀百度Sitemap協(xié)議都支持哪些格式。
  第二步,將Sitemap文件放置在網(wǎng)站目錄下。比如您的網(wǎng)站為example.com,您已制作了一個sitemap_example.xml的Sitemap文件,將sitemap_example.xml上傳至網(wǎng)站根目錄即example.com/sitemap_example.xml
  第三步,登錄百度站長平臺,確保提交Sitemap數(shù)據(jù)的網(wǎng)站已驗證歸屬。
  第四步,進入Sitemap工具,點擊“添加新數(shù)據(jù)”,文件類型選擇“URL列表”,填寫抓取周期和Sitemap文件地址
  最后,提交完之后,可在Sitemap列表里看到提交的Sitemap文件,如果Sitemap文件里面有新的網(wǎng)站鏈接,可以選擇文件后,點擊更新所選,即對更新的網(wǎng)站鏈接進行了提交。


什么是移動Sitemap協(xié)議,如何提交移動Sitemap協(xié)議

百度推出了移動Sitemap協(xié)議,用于將網(wǎng)址提交給移動搜索收錄。百度移動Sitemap協(xié)議是在標(biāo)準(zhǔn)Sitemap協(xié)議基礎(chǔ)上制定的,增加了標(biāo)簽,它有四種取值: 

  • <mobile:mobile/> :移動網(wǎng)頁
  • <mobile:mobile type="mobile"/> :移動網(wǎng)頁      
  • <mobile:mobile type="pc,mobile"/>:自適應(yīng)網(wǎng)頁
  • <mobile:mobile type="htmladapt"/>:代碼適配

無該上述標(biāo)簽表示為PC網(wǎng)頁

下方樣例相當(dāng)于向百度移動搜索提交了一個移動網(wǎng)頁:http://m.example.com/index.html,

向PC搜索提交了一個傳統(tǒng)網(wǎng)頁:http://www.example.com/index.html,

同時向移動搜索和PC搜索提交了一個自適配網(wǎng)頁http://www.example.com/autoadapt.html:

 
<?xml version="1.0" encoding="UTF-8" ?> 
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/"> 
<url> 
<loc>http://m.example.com/index.html</loc> 
<mobile:mobile type="mobile"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url> 
<url> 
<loc>http://www.example.com/index.html</loc>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url> 
<url> 
<loc>http://www.example.com/autoadapt.html</loc> 
<mobile:mobile type="pc,mobile"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url> 
<url> 
<loc>http://www.example.com/htmladapt.html</loc> 
<mobile:mobile type="htmladapt"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url> 
</urlset>
 

按照移動Sitemap協(xié)議做好Sitemap后,在Sitemap工具點擊添加新數(shù)據(jù)提交,與提交普通Sitemap方式一致。


我提交時填寫的周期是什么含義?

百度Spider會參考設(shè)置周期抓取Sitemap文件,因此請根據(jù)Sitemap文件內(nèi)容的更新(比如增加新url)來設(shè)置。請注意若url不變而僅是url對應(yīng)的頁面內(nèi)容更新(比如論壇帖子頁有新回復(fù)內(nèi)容),不在此更新范圍內(nèi)。Sitemap工具不能解決頁面更新問題。


Sitemap提交后,多久能被百度處理?

Sitemap數(shù)據(jù)提交后,一般在1小時內(nèi)百度會開始處理。在以后的調(diào)度抓取中,如果您的sitemap支持etag,我們會更頻繁抓取sitemap文件,從而及時發(fā)現(xiàn)內(nèi)容更新;否則抓取的周期會比較長。


提交的Sitemap都會被百度抓取并收錄嗎?

百度對已提交的數(shù)據(jù),不保證一定會抓取及收錄所有網(wǎng)址。是否收錄與頁面質(zhì)量相關(guān)。


我可以壓縮我的 Sitemap 嗎?它們是否需要用 gzip 壓縮?

可以。請使用 gzip 壓縮 Sitemap。無論壓縮與否,Sitemap 應(yīng)該小于 10MB(10,485,759字節(jié))。


XML格式的 Sitemap 中,“priority”提示會影響我的網(wǎng)頁在搜索結(jié)果中的排名嗎?

不會。Sitemap 中的“priority”提示只是說明該網(wǎng)址相對于您自己網(wǎng)站上其他網(wǎng)址的重要性,并不會影響網(wǎng)頁在搜索結(jié)果中的排名。


網(wǎng)址在 Sitemap 中的位置是否會影響它的使用?

不會。網(wǎng)址在 Sitemap 中的位置并不會影響百度對它的識別或使用方式。


Sitemap中提交的url能否包含中文?

因為轉(zhuǎn)碼問題建議最好不要包含中文。


什么是自動推送工具?自動推送工具解決了什么問題?

【特別提醒】該工具暫時下線,如恢復(fù)使用,將另行通知。

自動推送JS代碼是百度站長平臺最新推出的輕量級鏈接提交組件,站長只需將自動推送的JS代碼放置在站點每一個頁面源代碼中,當(dāng)頁面被訪問時,頁面鏈接會自動推送給百度,有利于新頁面更快被百度發(fā)現(xiàn)。


為了更快速的發(fā)現(xiàn)站點每天產(chǎn)生的最新內(nèi)容,百度站長平臺推出主動推送工具,產(chǎn)品上線后,部分站長反饋使用主動推送方式的技術(shù)門檻較高,于是我們順勢推出更低成本的JS自動推送工具。一步安裝便可實現(xiàn)頁面自動推送,低成本,高收益。


自動推送代碼如何安裝使用?

站長需要在每個頁面的HTML代碼中包含以下自動推送JS代碼:

<script>
(function(){
    var bp = document.createElement('script');
    var curProtocol = window.location.protocol.split(':')[0];
    if (curProtocol === 'https'){
   bp.src = 'https://zz.bdstatic.com/linksubmit/push.js';
  }
  else{
  bp.src = 'http://push.zhanzhang.baidu.com/push.js';
  }
    var s = document.getElementsByTagName("script")[0];
    s.parentNode.insertBefore(bp, s);
})();
</script>

如果站長使用PHP語言開發(fā)的網(wǎng)站,可以按以下步驟操作:
1、創(chuàng)建名為“baidu_js_push.php”的文件,文件內(nèi)容是上述自動推送JS代碼;
2、在每個PHP模板頁文件中的 標(biāo)記后面添加一行代碼:
<?php include_once("baidu_js_push.php") ?>


為什么自動推送可以更快的將頁面推送給百度搜索?

基于自動推送的實現(xiàn)原理問題,當(dāng)新頁面每次被瀏覽時,頁面URL會自動推送給百度,無需站長匯總URL再進行主動推送操作。

借助用戶的瀏覽行為來觸發(fā)推送動作,省去了站長人工操作的時間。


自動推送和主動推送有什么區(qū)別?

已經(jīng)在使用鏈接提交里的主動推送(或sitemap)的網(wǎng)站還需要再部署自動推送代碼嗎?

二者之間互不沖突,互為補充。已經(jīng)使用主動推送的站點,依然可以部署自動推送的JS代碼,二者一起使用。


什么樣的網(wǎng)站更適合使用自動推送?

自動推送由于實現(xiàn)便捷和后續(xù)維護成本低的特點,適合技術(shù)能力相對薄弱,無能力支持全天候?qū)崟r主動推送程序的站長。

站長僅需一次部署自動推送JS代碼的操作,就可以實現(xiàn)新頁面被瀏覽即推送的效果,低成本實現(xiàn)鏈接自動提交。

同時,我們也支持主動推送和自動推送代碼配合使用,二者互不影響。



以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號