網(wǎng)站死鏈解決

2018-08-12 21:52 更新

網(wǎng)站死鏈解決

大量死鏈對(duì)搜索引擎來講,有什么影響?

1、幾乎很多站都避免不了存在死鏈接,但死鏈率過高,會(huì)影響搜索引擎對(duì)網(wǎng)站的評(píng)分。

2、搜索引擎對(duì)每個(gè)網(wǎng)站每天抓取的頻次是限額的,若網(wǎng)站存在大量死鏈,會(huì)浪費(fèi)掉抓取配額并影響正常頁(yè)面的抓取。

3、過多死鏈對(duì)網(wǎng)站用戶來講也是體驗(yàn)不好的表現(xiàn)。

百度站長(zhǎng)工具中有一個(gè)抓取異常,那么這個(gè)工具里面的異常數(shù)據(jù)是如何產(chǎn)生的呢?

1、網(wǎng)站內(nèi)部添加了錯(cuò)誤的內(nèi)部鏈接 編輯失誤或者程序員大意讓頁(yè)面產(chǎn)生了不存在頁(yè)面的 URL。

2、原來正常頁(yè)面因?yàn)槌绦蚧蝽?yè)面調(diào)整或改版無法打開 因?yàn)槌绦虻囊粋€(gè)改動(dòng),導(dǎo)致了某些正常頁(yè)面無法打開。

3、網(wǎng)站短暫無法訪問 因?yàn)榉?wù)器、空間或程序問題導(dǎo)致網(wǎng)站無法訪問,抓取異常中會(huì)出現(xiàn)大量的 500 錯(cuò)誤頁(yè)面。

4、外部鏈接錯(cuò)誤 用戶或者站長(zhǎng)在站外發(fā)布了錯(cuò)誤 URL,蜘蛛爬取后產(chǎn)生錯(cuò)誤頁(yè)面;別的網(wǎng)站復(fù)制或采集了你們含有錯(cuò)誤鏈接的頁(yè)面;有些垃圾網(wǎng)站自動(dòng)生成的靜態(tài)搜索結(jié)果頁(yè),如 www。8875。org/desc/3715714444.html 這個(gè)頁(yè)面中出現(xiàn)的很多鏈接在 html 前面有“...”。

5、爬蟲提取了不完整的 URL 個(gè)別爬蟲在提取頁(yè)面 URL 的時(shí)候,只提取部分 URL 或者把正常的 URL 后面的文字或字符也提取進(jìn)去了。

6、網(wǎng)站改版或管理員刪除頁(yè)面 網(wǎng)站改版過程中處理不當(dāng)導(dǎo)致部分老頁(yè)面無法訪問,或者網(wǎng)站管理員刪除被黑、廣告、過時(shí)、被灌水頁(yè)面。

出現(xiàn)了上述情況,我們?cè)撊绾稳ソ鉀Q

1、修復(fù)錯(cuò)誤頁(yè)面 抓取異常中的很多錯(cuò)誤頁(yè)面是因?yàn)槌绦騿T大意或者我們程序問題導(dǎo)致的,本應(yīng)該是正常頁(yè)面,因?yàn)槭д`導(dǎo)致無法訪問,對(duì)于此類頁(yè)面,第一時(shí)間進(jìn)行修復(fù)。

2、提交死鏈接 但必定很多錯(cuò)誤頁(yè)面是本不應(yīng)該存在的,那么我們要想辦法獲取此類頁(yè)面 URL,獲取方式主要有三種:

  • (1) 百度站長(zhǎng)工具--抓取異常--找不到的頁(yè)面--復(fù)制數(shù)據(jù) [修正:此處死鏈不需我們提交了,百度站長(zhǎng)工具自動(dòng)提交死鏈];
  • (2) 管理員在刪除頁(yè)面的時(shí)候手動(dòng)或者程序自動(dòng)保存被刪頁(yè)面 URL;
  • (3) 使用相關(guān)爬蟲軟件,爬取整站獲取死鏈,如 Xenu 。

然后將上述數(shù)據(jù)合并并刪除重復(fù)項(xiàng)(excel 表格中能實(shí)現(xiàn)刪重,wps 表格更容易操作),然后再?gòu)?fù)制所有 URL 通過 HTTP 狀態(tài)批量查詢工具查詢下[這個(gè)不錯(cuò) pl.soshoulu.com/webspeed.aspx],剔除掉非 404 返回碼頁(yè)面。

然后整理上面處理好的數(shù)據(jù)粘貼到網(wǎng)站根目錄中的一個(gè)文檔中,再把文檔地址提交到 百度站長(zhǎng)工具--網(wǎng)頁(yè)抓取--死鏈提交--添加新數(shù)據(jù)--填寫死鏈文件地址。

3、在 robots 中屏蔽抓取 若大量的錯(cuò)誤 URL 存在一定的規(guī)律,可以在 robots 文件中寫一個(gè)規(guī)則禁止蜘蛛程序抓取此類鏈接,但前提一定要照顧好正常頁(yè)面,避免屏蔽規(guī)則誤傷正常頁(yè)面,比如你的網(wǎng)站全部是靜態(tài) URL,那么如果錯(cuò)誤鏈接中含有?的話,規(guī)則寫成 Disallow:/?,如果錯(cuò)誤鏈接中有/id...html 的話,規(guī)則寫成 Disallow:/... 。

robots 文件添加完規(guī)則后,一定要去百度站長(zhǎng)的 robots 工具 進(jìn)行校驗(yàn),將指定的錯(cuò)誤頁(yè)面放進(jìn)去,看看是否封禁成功,再把正常的頁(yè)面放進(jìn)去看看是否被誤封。

相關(guān)注意事項(xiàng):

1、在百度站長(zhǎng)工具中提交死鏈前,一定要確保提交的死鏈數(shù)據(jù)不存在活鏈接,或者存在 HTTP 狀態(tài)碼非 404 頁(yè)面。一旦存在活鏈,會(huì)顯示提交失敗導(dǎo)致無法刪除。

2、由于很多網(wǎng)站程序問題,很多打不開的頁(yè)面返回碼并非 404,這是一個(gè)大問題,比如明明是打不開的頁(yè)面返回碼是 301、200、500,如果是 200 的話,會(huì)導(dǎo)致網(wǎng)站中出現(xiàn)不同 URL 獲取相同內(nèi)容。比如我的一個(gè)站,社區(qū)的帖子刪除后,返回碼卻是 500,后期發(fā)現(xiàn)了,立馬進(jìn)行了處理。大家盡量找出所有錯(cuò)誤 URL 格式,.并設(shè)置打開后 HTTP 狀態(tài)碼為 404。

3、把所有的錯(cuò)誤頁(yè)面找到后,一定要尋找此類頁(yè)面 URL 相同特征,并且和正常頁(yè)面的特征有區(qū)分,寫對(duì)應(yīng)規(guī)則到 robots 文件中,禁止蜘蛛抓取,就算你已經(jīng)在站長(zhǎng)工具中提交了死鏈,也建議 robots 封禁抓取。

4、robots 只能解決蜘蛛不再抓取此類頁(yè)面,但解決不了已經(jīng)抓取頁(yè)面的快照的刪除問題,若你的網(wǎng)站被黑,刪除了被黑頁(yè)面,除了 robots 封禁被黑頁(yè)面外,還應(yīng)該將這些頁(yè)面提交死鏈。提交死鏈?zhǔn)莿h除被黑頁(yè)面快照的最快辦法。[站長(zhǎng)社區(qū)-版主 ccutu]

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)