主動推送:最為快速的提交方式,建議您將站點當(dāng)天新產(chǎn)出鏈接立即通過此方式推送給百度,以保證新鏈接可以及時被百度收錄。
sitemap:您可以定期將網(wǎng)站鏈接放到Sitemap中,然后將Sitemap提交給百度。百度會周期性的抓取檢查您提交的Sitemap,對其中的鏈接進行處理,但收錄速度慢于主動推送。
手工提交:如果您不想通過程序提交,那么可以采用此種方式,手動將鏈接提交給百度。
及時發(fā)現(xiàn):可以縮短百度爬蟲發(fā)現(xiàn)您站點新鏈接的時間,使新發(fā)布的頁面可以在第一時間被百度收錄
保護原創(chuàng):對于網(wǎng)站的最新原創(chuàng)內(nèi)容,使用主動推送功能可以快速通知到百度,使內(nèi)容可以在轉(zhuǎn)發(fā)之前被百度發(fā)現(xiàn)
1,需要網(wǎng)站制作數(shù)據(jù)推送接口,進入主動推送工具后,會看到接口調(diào)用地址的token,token是由16個英文數(shù)字組合的字符串
2,下面提供一些推送示例您可以通過推送后返回的狀態(tài)碼和字段來判斷數(shù)據(jù)是否推送成功。
1,狀態(tài)碼為200,表示推送成功,可能返回以下字段:
字段 |
是否必選 |
參數(shù)類型 |
說明 |
success |
是 |
int |
成功推送的url條數(shù) |
remain |
是 |
int |
當(dāng)天剩余的可推送url條數(shù) |
not_same_site |
否 |
array |
由于不是本站url而未處理的url列表 |
not_valid |
否 |
array |
不合法的url列表 |
成功返回示例:
{
"remain":4999998,
"success":2,
"not_same_site":[],
"not_valid":[]
}
2,狀態(tài)碼為4XX或500,表示推送失敗,返回字段有:
字段 |
是否必選 |
類型 |
說明 |
error |
是 |
int |
錯誤碼,與狀態(tài)碼相同 |
message |
是 |
string |
錯誤描述 |
常見的推送失敗返回示例說明:
error |
message |
含義 |
400 |
site error |
站點未在站長平臺驗證 |
empty content |
post內(nèi)容為空 |
|
only 2000 urls are allowed once |
每次最多只能提交2000條鏈接 |
|
over quota |
超過每日配額了,超配額后再提交都是無效的 |
|
401 |
token is not valid |
token錯誤 |
404 |
not found |
接口地址填寫錯誤 |
500 |
internal error, please try later |
服務(wù)器偶然異常,通常重試就會成功 |
1, 和原來的sitemap提交接口有什么區(qū)別?
答:狀態(tài)反饋更及時了,原來提交后需要登錄到站長平臺查看提交是否成功。目前只要根據(jù)提交后返回的數(shù)據(jù)就可以判斷了。
2, 已經(jīng)存在的提交sitemap數(shù)據(jù)的程序代碼需要做什么修改?
答:主要修改兩點。第一點,提交的接口需要修改;第二點,需要處理下接口返回的信息,失敗后需要根據(jù)錯誤進行相應(yīng)處理,報錯的鏈接是無法提交成功的
3,為什么提交成功后看不到數(shù)據(jù)變化?
答:我們反饋的是新提交鏈接的數(shù)量,如果您提交的鏈接在之前提交過(即重復(fù)提交)是不會被統(tǒng)計到的
4,在什么時機使用主動推送提交功能效果最明顯?
答:頁面鏈接產(chǎn)生或發(fā)布時立即提交,這樣效果是最好的
5,每次提交一條數(shù)據(jù)和多條數(shù)據(jù)有什么區(qū)別?
答:沒有區(qū)別
6,重復(fù)提交已經(jīng)發(fā)布的鏈接會有什么問題?
答:會有兩個影響。第一,將浪費您提交的配額,每個站點每天可提交的數(shù)量是有限制的,如果您都提交了舊鏈接,當(dāng)有新鏈接時可能因為配額耗盡無法提交。第二,如果您經(jīng)常重復(fù)提交舊鏈接,我們會下調(diào)您的配額,您可能會失去主動推送功能的權(quán)限
7,主動推送可以推多少條鏈接?
答:主動推送可提交的鏈接數(shù)量上限是根據(jù)您提交的新產(chǎn)生有價值鏈接數(shù)量而決定的,百度會根據(jù)您提交數(shù)量的情況不定期對上限額進行調(diào)整,提交的新產(chǎn)生有價值鏈接數(shù)量越多,可提交鏈接的上限越高。
Sitemap(即站點地圖)就是您網(wǎng)站上各網(wǎng)頁的列表。創(chuàng)建并提交Sitemap有助于百度發(fā)現(xiàn)并了解您網(wǎng)站上的所有網(wǎng)頁。您還可以使用Sitemap提供有關(guān)您網(wǎng)站的其他信息,如上次更新日期、Sitemap文件的更新頻率等,供百度Spider參考。
百度對已提交的數(shù)據(jù),不保證一定會抓取及索引所有網(wǎng)址。但是,我們會使用Sitemap中的數(shù)據(jù)來了解網(wǎng)站的結(jié)構(gòu)等信息,這樣可以幫助我們改進抓取策略,并在日后能更好地對網(wǎng)站進行抓取。
此外,Sitemap 與搜索排名沒有關(guān)系。
百度Sitemap協(xié)議支持三種格式:文本格式、xml格式、Sitemap索引格式,可以根據(jù)自己情況來選擇任意一種格式組織sitemap。具體格式說明及示例如下:
在一個txt文本列明需要向百度提交的鏈接地址,將txt文本文件通過站長平臺進行提交
http://www.example.com/repaste/101562698_5230191316.html
http://www.example.com/repaste/101586283_5230215075.html
http://www.example.com/repaste/101639435_5230310576.html
此文本文件需要遵循以下指南:
· 文本文件每行都必須有一個網(wǎng)址。網(wǎng)址中不能有換行。
· 不應(yīng)包含網(wǎng)址列表以外的任何信息。
· 您必須書寫完整的網(wǎng)址,包括 http。
· 每個文本文件最多可包含 50,000 個網(wǎng)址,并且應(yīng)小于10MB(10,485,760字節(jié))。如果網(wǎng)站所包含的網(wǎng)址超過 50,000 個,則可將列表分割成多個文本文件,然后分別添加每個文件。
· 文本文件需使用 UTF-8 編碼或GBK編碼。
單個xml數(shù)據(jù)格式如下:
<?xml version="1.0" encoding="utf-8"?>
<!-- XML文件需以utf-8編碼-->
<urlset>
<!--必填標(biāo)簽-->
<url>
<!--必填標(biāo)簽,這是具體某一個鏈接的定義入口,每一條數(shù)據(jù)都要用<url>和</url>包含在里面,這是必須的 -->
<loc>http://www.yoursite.com/yoursite.html</loc>
<!--必填,URL鏈接地址,長度不得超過256字節(jié)-->
<lastmod>2009-12-14</lastmod>
<!--可以不提交該標(biāo)簽,用來指定該鏈接的最后更新時間-->
<changefreq>daily</changefreq>
<!--可以不提交該標(biāo)簽,用這個標(biāo)簽告訴此鏈接可能會出現(xiàn)的更新頻率 -->
<priority>0.8</priority>
<!--可以不提交該標(biāo)簽,用來指定此鏈接相對于其他鏈接的優(yōu)先權(quán)比值,此值定于0.0-1.0之間-->
</url>
<url>
<loc>http://www.yoursite.com/yoursite2.html</loc>
<lastmod>2010-05-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
上述Sitemap向百度提交了一個url:http://www.yoursite.com/yoursite.html
若有多條url,按照上述格式重復(fù)之間的片斷,列明所有url地址,打包到一個xml文件,向站長平臺進行提交。
第一,一個Sitemap文件包含的網(wǎng)址不得超過 5 萬個,且文件大小不得超過 10 MB。如果您的Sitemap超過了這些限值,請將其拆分為幾個小的Sitemap。這些限制條件有助于確保您的網(wǎng)絡(luò)服務(wù)器不會因提供大文件而超載。
第二,一個站點支持提交的sitemap文件個數(shù)必須小于5萬個,多于5萬個后會不再處理,并顯示“鏈接數(shù)超”的提示。
第三,如果驗證了網(wǎng)站的主域,那么Sitemap文件中可包含該網(wǎng)站主域下的所有網(wǎng)址。
第一步,將需提交的網(wǎng)頁列表制作成一個Sitemap文件,文件格式請閱讀百度Sitemap協(xié)議都支持哪些格式。
第二步,將Sitemap文件放置在網(wǎng)站目錄下。比如您的網(wǎng)站為example.com,您已制作了一個sitemap_example.xml的Sitemap文件,將sitemap_example.xml上傳至網(wǎng)站根目錄即example.com/sitemap_example.xml
第三步,登錄百度站長平臺,確保提交Sitemap數(shù)據(jù)的網(wǎng)站已驗證歸屬。
第四步,進入Sitemap工具,點擊“添加新數(shù)據(jù)”,文件類型選擇“URL列表”,填寫抓取周期和Sitemap文件地址
最后,提交完之后,可在Sitemap列表里看到提交的Sitemap文件,如果Sitemap文件里面有新的網(wǎng)站鏈接,可以選擇文件后,點擊更新所選,即對更新的網(wǎng)站鏈接進行了提交。
百度推出了移動Sitemap協(xié)議,用于將網(wǎng)址提交給移動搜索收錄。百度移動Sitemap協(xié)議是在標(biāo)準(zhǔn)Sitemap協(xié)議基礎(chǔ)上制定的,增加了標(biāo)簽,它有四種取值:
無該上述標(biāo)簽表示為PC網(wǎng)頁
下方樣例相當(dāng)于向百度移動搜索提交了一個移動網(wǎng)頁:http://m.example.com/index.html,
向PC搜索提交了一個傳統(tǒng)網(wǎng)頁:http://www.example.com/index.html,
同時向移動搜索和PC搜索提交了一個自適配網(wǎng)頁http://www.example.com/autoadapt.html:
<?xml version="1.0" encoding="UTF-8" ?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">
<url>
<loc>http://m.example.com/index.html</loc>
<mobile:mobile type="mobile"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/index.html</loc>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/autoadapt.html</loc>
<mobile:mobile type="pc,mobile"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/htmladapt.html</loc>
<mobile:mobile type="htmladapt"/>
<lastmod>2009-12-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
按照移動Sitemap協(xié)議做好Sitemap后,在Sitemap工具點擊添加新數(shù)據(jù)提交,與提交普通Sitemap方式一致。
百度Spider會參考設(shè)置周期抓取Sitemap文件,因此請根據(jù)Sitemap文件內(nèi)容的更新(比如增加新url)來設(shè)置。請注意若url不變而僅是url對應(yīng)的頁面內(nèi)容更新(比如論壇帖子頁有新回復(fù)內(nèi)容),不在此更新范圍內(nèi)。Sitemap工具不能解決頁面更新問題。
Sitemap數(shù)據(jù)提交后,一般在1小時內(nèi)百度會開始處理。在以后的調(diào)度抓取中,如果您的sitemap支持etag,我們會更頻繁抓取sitemap文件,從而及時發(fā)現(xiàn)內(nèi)容更新;否則抓取的周期會比較長。
百度對已提交的數(shù)據(jù),不保證一定會抓取及收錄所有網(wǎng)址。是否收錄與頁面質(zhì)量相關(guān)。
可以。請使用 gzip 壓縮 Sitemap。無論壓縮與否,Sitemap 應(yīng)該小于 10MB(10,485,759字節(jié))。
不會。Sitemap 中的“priority”提示只是說明該網(wǎng)址相對于您自己網(wǎng)站上其他網(wǎng)址的重要性,并不會影響網(wǎng)頁在搜索結(jié)果中的排名。
不會。網(wǎng)址在 Sitemap 中的位置并不會影響百度對它的識別或使用方式。
因為轉(zhuǎn)碼問題建議最好不要包含中文。
【特別提醒】該工具暫時下線,如恢復(fù)使用,將另行通知。
自動推送JS代碼是百度站長平臺最新推出的輕量級鏈接提交組件,站長只需將自動推送的JS代碼放置在站點每一個頁面源代碼中,當(dāng)頁面被訪問時,頁面鏈接會自動推送給百度,有利于新頁面更快被百度發(fā)現(xiàn)。
為了更快速的發(fā)現(xiàn)站點每天產(chǎn)生的最新內(nèi)容,百度站長平臺推出主動推送工具,產(chǎn)品上線后,部分站長反饋使用主動推送方式的技術(shù)門檻較高,于是我們順勢推出更低成本的JS自動推送工具。一步安裝便可實現(xiàn)頁面自動推送,低成本,高收益。
站長需要在每個頁面的HTML代碼中包含以下自動推送JS代碼:
<script>
(function(){
var bp = document.createElement('script');
var curProtocol = window.location.protocol.split(':')[0];
if (curProtocol === 'https'){
bp.src = 'https://zz.bdstatic.com/linksubmit/push.js';
}
else{
bp.src = 'http://push.zhanzhang.baidu.com/push.js';
}
var s = document.getElementsByTagName("script")[0];
s.parentNode.insertBefore(bp, s);
})();
</script>
如果站長使用PHP語言開發(fā)的網(wǎng)站,可以按以下步驟操作:
1、創(chuàng)建名為“baidu_js_push.php”的文件,文件內(nèi)容是上述自動推送JS代碼;
2、在每個PHP模板頁文件中的 標(biāo)記后面添加一行代碼:
<?php include_once("baidu_js_push.php") ?>
基于自動推送的實現(xiàn)原理問題,當(dāng)新頁面每次被瀏覽時,頁面URL會自動推送給百度,無需站長匯總URL再進行主動推送操作。
借助用戶的瀏覽行為來觸發(fā)推送動作,省去了站長人工操作的時間。
已經(jīng)在使用鏈接提交里的主動推送(或sitemap)的網(wǎng)站還需要再部署自動推送代碼嗎?
二者之間互不沖突,互為補充。已經(jīng)使用主動推送的站點,依然可以部署自動推送的JS代碼,二者一起使用。
自動推送由于實現(xiàn)便捷和后續(xù)維護成本低的特點,適合技術(shù)能力相對薄弱,無能力支持全天候?qū)崟r主動推送程序的站長。
站長僅需一次部署自動推送JS代碼的操作,就可以實現(xiàn)新頁面被瀏覽即推送的效果,低成本實現(xiàn)鏈接自動提交。
同時,我們也支持主動推送和自動推送代碼配合使用,二者互不影響。
更多建議: