良好收錄

2020-08-13 09:45 更新

機器可讀

百度通過一個叫做 Baiduspider 的程序抓取互聯(lián)網(wǎng)上的網(wǎng)頁,經(jīng)過處理后建入索引中。目前 Baiduspider 只能讀懂文本內(nèi)容,flash,圖片等非文本內(nèi)容暫時不能處理,放置在 flash、圖片中的文字,百度無法識別。


建議使用文字而不是 flash、圖片、Javascript 等來顯示重要的內(nèi)容或鏈接,搜索引擎暫時無法識別 Flash、圖片、Javascript  中的內(nèi)容,這部分內(nèi)容無法搜索到;僅在 flash、Javascript 中包含鏈接指向的網(wǎng)頁,百度可能無法收錄。


我們建議
   ? 使用文字而不是 flash、圖片、Javascript 等來顯示重要的內(nèi)容或鏈接 

   ? 如果必須使用 Flash 制作網(wǎng)頁,建議同時制作一個供搜索引擎收錄的文字版,并在首頁使用文本鏈接指向文字版 

   ?  Ajax 等搜索引擎不能識別的技術(shù),只用在需要用戶交互的地方,不把希望搜索引擎“看”到的導(dǎo)航及正文內(nèi)容放到 Ajax 中;

   ? 不使用 frameiframe 框架結(jié)構(gòu),通過 iframe 顯示的內(nèi)容可能會被百度丟棄


              不符合百度標準


上面例子中,雖然網(wǎng)頁上提供了很豐富的信息,但由于信息都在 flash 中,搜索引擎無法提?。◤奶崛⌒畔⒅锌梢钥吹街挥芯W(wǎng)頁標題,其他內(nèi)容都爬取不到),對搜索引擎來講,這個網(wǎng)頁沒有任何內(nèi)容。


網(wǎng)站結(jié)構(gòu)

網(wǎng)站應(yīng)該有清晰的結(jié)構(gòu)和明晰的導(dǎo)航,這能幫助用戶快速從你的網(wǎng)站中找到自己需要的內(nèi)容,也可以幫助搜索引擎快速理解網(wǎng)站中每一個網(wǎng)頁所處的結(jié)構(gòu)層次。


網(wǎng)站結(jié)構(gòu)建議采用樹型結(jié)構(gòu),樹型結(jié)構(gòu)通常分為以下三個層次:首頁——頻道——文章頁。象一棵大樹一樣,首先有一個樹干(首頁),然后再是樹枝(頻道),最后是樹葉(普通內(nèi)容頁)。樹型結(jié)構(gòu)的擴展性更強,網(wǎng)站內(nèi)容變多時,可以通過細分樹枝(頻道)來輕松應(yīng)對。


理想的網(wǎng)站結(jié)構(gòu)應(yīng)該是更扁平一些,從首頁到內(nèi)容頁的層次盡量少,這樣搜索引擎處理起來,會更簡單。


同時,網(wǎng)站也應(yīng)該是一個網(wǎng)狀結(jié)構(gòu),網(wǎng)站上每個網(wǎng)頁都應(yīng)該有指向上、下級網(wǎng)頁以及相關(guān)內(nèi)容的鏈接:首頁有到頻道頁的鏈接,頻道頁有到首頁和普通內(nèi)容頁的鏈接、普通內(nèi)容頁有到上級頻道以及首頁的鏈接、內(nèi)容相關(guān)的網(wǎng)頁間互相有鏈接。


網(wǎng)站中每一個網(wǎng)頁,都應(yīng)該是網(wǎng)站結(jié)構(gòu)的一部分,都應(yīng)該能通過其他網(wǎng)頁鏈接到。


總結(jié)一下,合理的網(wǎng)站結(jié)構(gòu)應(yīng)該是一個扁平的樹型網(wǎng)狀結(jié)構(gòu)。我們建議: 

   ? 確保每個頁面都可以通過至少一個文本鏈接到達。 

   ? 重要的內(nèi)容,應(yīng)該能從首頁或者網(wǎng)站結(jié)構(gòu)中比較淺的層次訪問到。 

   ? 合理分類網(wǎng)站上的內(nèi)容,不要過度細分。


網(wǎng)站應(yīng)該有簡明、清晰的導(dǎo)航,可以讓用戶快速找到自己需要的內(nèi)容,同時也可以幫助搜索引擎更好的了解網(wǎng)站的結(jié)構(gòu)。我們建議: 

   ? 為每個頁面都加上導(dǎo)航欄,讓用戶可以方便的返回頻道、網(wǎng)站首頁,也可以讓搜索引擎方便的定位網(wǎng)頁在網(wǎng)結(jié)構(gòu)中的層次。

               

通過面包屑導(dǎo)航,用戶可以很清楚的知道自己所在頁面在整個網(wǎng)站中的位置,可以方便的返回上一級頻道或者首頁也很方便。   

   ? 內(nèi)容較多的網(wǎng)站,建議使用面包屑式的導(dǎo)航,這更容易讓用戶理解當前所處的位置:網(wǎng)站首頁 > 頻道 > 當前瀏覽頁面

   ? 導(dǎo)航中使用文字鏈接,不使用復(fù)雜的 js 或者 flash

   ? 使用圖片做導(dǎo)航時,可以使用 Alt 注釋,用 Alt 告訴搜索引擎所指向的網(wǎng)頁內(nèi)容是什么 

子域名與目錄的選擇

選擇使用子域名還是目錄來合理的分配網(wǎng)站內(nèi)容,對網(wǎng)站在搜索引擎中的表現(xiàn)會有較大的影響。


我們建議

   ? 在某個頻道的內(nèi)容沒有豐富到可以當做一個獨立站點存在之前,使用目錄形式;等頻道下積累了足夠的內(nèi)容,再轉(zhuǎn)換成子域名的形式

一個網(wǎng)頁能否排到搜索結(jié)果的前面,“出身”很重要,如果出自一個站點權(quán)重較高的網(wǎng)站,那排到前面的可能性就越大,反之則越小。通常情況下主站點的權(quán)重是最高的,子站點會從主站點繼承一部分權(quán)重,繼承的多少,視子站點質(zhì)量而定。


在內(nèi)容沒有豐富到可以做為一個獨立站點之前,內(nèi)容放到主站點下一個目錄中能在搜索引擎中獲得更好的表現(xiàn)。

 

   ? 內(nèi)容差異度較大、關(guān)聯(lián)度不高的內(nèi)容,使用子站點形式 

搜索引擎會識別站點的主題,如果站點中內(nèi)容關(guān)聯(lián)度不高,可能導(dǎo)致搜索引擎錯誤的識別。關(guān)聯(lián)度不高的內(nèi)容,放在不同的子域名下,可以幫助搜索引擎更好的理解站點的主題 


   ? 域名間內(nèi)容做好權(quán)限,互相分開,a. example.com 下的內(nèi)容,不能通過 b. example.com 訪問 

子域名間的內(nèi)容可以互相訪問,可能會被搜索引擎當做重復(fù)內(nèi)容而進行除重處理,保留的 url 不一定是正常域名下的。 


   ? 不要濫用子域名 

無豐富內(nèi)容而濫用大量子域名,會被搜索引擎當做作弊行為而受到懲罰。


規(guī)范、簡單的URL  

創(chuàng)建具有良好描述性、規(guī)范、簡單的 url ,有利于用戶更方便的記憶和判斷網(wǎng)頁的內(nèi)容,也有利于搜索引擎更有效的抓取您的網(wǎng)站。網(wǎng)站設(shè)計之初,就應(yīng)該有合理的 url 規(guī)劃。


我們建議: 

 ? 如果網(wǎng)站中同一網(wǎng)頁,只對應(yīng)一個 url     

如果網(wǎng)站上多種 url 都能訪問同樣的內(nèi)容,會有如下危險:  

         1、搜索引擎會選一種 url 為標準,可能會和正版不同   

         2、用戶可能為同一網(wǎng)頁的不同 url 做推薦,多種 url 形式分散了該網(wǎng)頁的權(quán)重 

   

如果你的網(wǎng)站上已經(jīng)存在多種 url 形式,建議按以下方式處理:    

        1、在系統(tǒng)中只使用正常形式 url ,不讓用戶接觸到非正常形式的 url    

        2、不把 Session id 、統(tǒng)計代碼等不必要的內(nèi)容放在 url 中   

        3、不同形式的 url,301 永久跳轉(zhuǎn)到正常形式    

        4、防止用戶輸錯而啟用的備用域名,301 永久跳轉(zhuǎn)到主域名    

        5、使用 robots.txt 禁止 Baiduspider 抓取您不想向用戶展現(xiàn)的形式


        ? 讓用戶能從url判斷出網(wǎng)頁內(nèi)容以及網(wǎng)站結(jié)構(gòu)信息,并可以預(yù)測將要看到的內(nèi)容 

                 

以W3Cschool 網(wǎng)站為例,url 結(jié)構(gòu)中加入了列表頁信息,用戶在看到頁面的url時,可以方便的判斷是什么的列表頁。url 結(jié)構(gòu)中還加入了 tutorial 、python3 等內(nèi)容信息,用戶可以通過 url 判斷將要看到的內(nèi)容是一篇教程,還是一個教程頻道頁。


         ? URL盡量短,長URL不僅不美觀,用戶還很難從中獲取額外有用的信息。另一方面,短url還有助于減小頁面體積,加快網(wǎng)頁打開速度,提升用戶體驗。

           

 例子中的第一個 url,會讓用戶望而卻步,第二個 url,用戶可以很輕松的判斷是貼吧中關(guān)于百度的吧。


         ? 正常的動態(tài) url 對搜索引擎沒有影響。url 是動態(tài)還是靜態(tài)對搜索引擎沒有影響,但建議盡量減少動態(tài) url 中包含的變量參數(shù),這樣即有助于減少 url 長度,也可以減少讓搜索引擎掉入黑洞的風(fēng)險 

         ? 不添加不能被系統(tǒng)自動識別為url組成部分的字符

          

上面例子中,url 中加入了“;”、“,”等字符,用戶在通過論壇、即時通訊工具等渠道推薦這些 url 時,不能被自動識別為鏈接,增加了用戶訪問這些網(wǎng)頁的困難度。


         ? 利用百度提供的 URL 優(yōu)化工具檢查
 百度站長平臺提供了 URL 優(yōu)化工具,可以幫助檢查URL對搜索引擎的友好程度并提出修改建議。


利用站長工具

        互聯(lián)網(wǎng)越來越龐大、復(fù)雜,百度為了更好的處理互聯(lián)網(wǎng)上的信息,提供了一些的面向站長的工具,合理的利用這些站長工具,可以起事半功倍的效果。 

        ? 百度站長平臺

     登錄zhanzhang.baidu.com獲取更多幫助信息。


        ? Sitemap :

     百度站長平臺支持通過 sitemap 提交網(wǎng)站內(nèi)容。通過 sitemap 可以讓百度更全面更快的發(fā)現(xiàn)鏈接,使得收錄更有效率。


         ? Ping

    Ping 是針對 blog 內(nèi)容的提交方式,實時通知搜索引擎 blog 上有新內(nèi)容產(chǎn)生。目前主流的博客程序都支持 ping,您只需要將百度的 ping 服務(wù)地址 http://ping.baidu.com/ping/RPC2 加入博客后臺并開啟 ping 功能即可。


        ? 死鏈刪除: 
    百度站長平臺支持通過 sitemap 向百度提交網(wǎng)站的死鏈列表。網(wǎng)站死鏈過多,不僅影響用戶訪問體驗,也影響百度對網(wǎng)站質(zhì)量的判斷。通過死鏈刪除的接口可以讓百度更快更全面的發(fā)現(xiàn)網(wǎng)站死鏈,從而進行有效刪除。 

 
    注:提交需要刪除的網(wǎng)址后,需要做如下處理,才能被百度有效刪除: 

    1、使用 robots.txt 阻止其被抓取; 

    2、或者返回 404 狀態(tài)碼表示當前頁面不存在。


        ? 站長工具

    -URL優(yōu)化工具檢查


    百度站長平臺提供了 URL 優(yōu)化工具,可以幫助檢查 URL 對搜索引擎的友好程度并提出修改建議。

    -網(wǎng)站安全檢測    


百度站長平臺提供工具檢測網(wǎng)站是否被黑并提示站長,幫助修改。


   ? 什么是“網(wǎng)站被黑”?    

              網(wǎng)站被黑,是指黑客利用網(wǎng)站的程序、設(shè)置等方面的安全漏洞或管理員安全疏忽(如密碼復(fù)雜度低),未經(jīng)管理員授權(quán),對網(wǎng)站進行了篡改。


   ? 如何處理網(wǎng)站被黑?

    1、分析系統(tǒng)日志、服務(wù)器日志,檢查自己站點的頁面數(shù)量、流量等是否有異常波動,是否存在異常訪問或操作日志;

    2、檢查網(wǎng)站文件是否有不正常的修改,尤其是首頁等重點頁面;

    3、網(wǎng)站頁面是否引用了未知站點的資源(圖片、JS 等),是否被放置了外站的異常鏈接;

    4、檢查網(wǎng)站是否有不正常增加的文件或目錄;

    5、檢查網(wǎng)站目錄中是否有非管理員打包的網(wǎng)站源碼、未知 txt 文件等。


   ? 如何防止網(wǎng)站被黑?

    1、定期檢查服務(wù)器日志等方式發(fā)現(xiàn)問題,檢查是否有可疑的針對非前臺頁面的訪問;

    2、經(jīng)常檢查網(wǎng)站文件是否有不正常的修改或者增加;

    3、關(guān)注操作系統(tǒng),以及所使用程序的官方網(wǎng)站。及時下載補丁,修補安全漏洞;必要時建議直接更新至最新版本;

    4、修改開源程序關(guān)鍵文件的默認文件名,作弊者通常通過程序自動掃描某些特定的文件是否存在來判斷是否使用了某套程序;

    5、修改默認管理員用戶名,提高管理后臺的密碼強度,使用字母、數(shù)字以及特殊符號多種組合的密碼;

    6、關(guān)閉不必要的服務(wù),以及端口;

    7、關(guān)閉或者限制不必要的上傳功能;

    8、設(shè)置防火墻等安全措施;

    9、若問題反復(fù)出現(xiàn),建議重新安裝服務(wù)器操作系統(tǒng),并重新上傳備份的網(wǎng)站文件;

    10、缺乏專業(yè)維護人員的網(wǎng)站,建議向?qū)I(yè)安全公司咨詢;快速發(fā)現(xiàn)并處理被黑內(nèi)容,并做好被黑的預(yù)防,非常體現(xiàn)一個網(wǎng)站的運營水平。

上述的幾點僅僅是初步的參考。做好網(wǎng)站的安全需要站長、管理員們的不斷努力。


        ? 百度搜索框提示功能   

百度向站長開放免費“百度搜索框”代碼和“百度搜索框提示”代碼?! ? 


只需進行簡單的設(shè)置,即可將“百度搜索框(帶提示功能)”功能快速加入到您的網(wǎng)頁中。提升用戶在網(wǎng)站中的搜索體驗?!?/p>

              


改版/換域名

網(wǎng)站改版、換域名在互聯(lián)網(wǎng)飛速發(fā)展的情況下是不可避免的,但處理不當,會造成重大的流量損失。改版、換域名需要考慮的第一要點就是如何保證老用戶不流失,當用戶訪問舊內(nèi)容時,能引導(dǎo)用戶到新網(wǎng)站上對應(yīng)的內(nèi)容,避免出現(xiàn)用戶訪問不到以前收藏的網(wǎng)頁的情況。 

 
我們建議在改版或者換域名時,將舊網(wǎng)頁 301永久重定向 到內(nèi)容對應(yīng)的新網(wǎng)頁,這樣百度更容易發(fā)現(xiàn)這個轉(zhuǎn)變,并迅速的將舊網(wǎng)頁積累的權(quán)值傳遞給對應(yīng)的新網(wǎng)頁。


 其他建議: 

        ? 如非必要,不要做整站內(nèi)容的完全更換 

網(wǎng)站改版或者網(wǎng)站內(nèi)重要頁面鏈接發(fā)生變動時,應(yīng)該將改版前的頁面 301永久重定向 到改版后的對應(yīng)的頁面 

        ? 網(wǎng)站更換域名,應(yīng)該將舊域名的所有頁面 301永久重定向 到新域名上對應(yīng)的頁面 

網(wǎng)站更換域名后,維持舊域名能穩(wěn)定訪問盡可能長的時間,給用戶多一些時間記憶新域名 

  ? 網(wǎng)站改版/更換域名后,請把新的 URL /新域名下的 URL,通過 sitemap 提交給百度,幫助百度更快發(fā)現(xiàn)和作出調(diào)整。


合理的返回碼

  百度爬蟲在進行抓取和處理時,是根據(jù) http 協(xié)議規(guī)范來設(shè)置相應(yīng)的邏輯的,所以請站長們也盡量參考 http 協(xié)議中關(guān)于返回碼的含義的定義來進行設(shè)置。


        百度 spider 對常用的 http返回碼 的處理邏輯是這樣的: 

  ? 404
    404返回碼的含義是“NOT FOUND”,百度會認為網(wǎng)頁已經(jīng)失效,那么通常會從搜索結(jié)果中刪除,并且短期內(nèi) spider 再次發(fā)現(xiàn)這條 url 也不會抓取。

  ? 503
    503返回碼的含義是“Service Unavailable”,百度會認為該網(wǎng)頁臨時不可訪問,通常網(wǎng)站臨時關(guān)閉,帶寬有限等會產(chǎn)生這種情況。對于網(wǎng)頁返回503,百度 spider 不會把這條 url 直接刪除,短期內(nèi)會再訪問。屆時如果網(wǎng)頁已恢復(fù),則正常抓??;如果繼續(xù)返回503,短期內(nèi)還會反復(fù)訪問幾次。但是如果網(wǎng)頁長期返回503,那么這個 url 仍會被百度認為是失效鏈接,從搜索結(jié)果中刪除。 

  ? 403
    403返回碼的含義是“Forbidden”,百度會認為網(wǎng)頁當前禁止訪問。對于這種情況,如果是新發(fā)現(xiàn)的 url,百度 spider 暫不會抓取,短期內(nèi)會再次檢查;如果是百度已收錄 url,當前也不會直接刪除,短期內(nèi)同樣會再訪問。屆時如果網(wǎng)頁允許訪問,則正常抓取;如果仍不允許訪問,短期內(nèi)還會反復(fù)訪問幾次。但是如果網(wǎng)頁長期返回403,百度也會認為是失效鏈接,從搜索結(jié)果中刪除。

  ? 301
    301返回碼的含義是“Moved Permanently”,百度會認為網(wǎng)頁當前跳轉(zhuǎn)至新url。當遇到站點遷移,域名更換、站點改版的情況時,推薦使用301返回碼,盡量減少改版帶來的流量損失。雖然百度 spider 現(xiàn)在對301跳轉(zhuǎn)的響應(yīng)周期較長,但我們還是推薦大家這么做。


我們建議:

  ? 如果站點臨時關(guān)閉,當網(wǎng)頁不能打開時,不要立即返回 404,建議使用 503 狀態(tài)。503 可以告知百度 spider 該頁面臨時不可訪問,請過段時間再重試。

  ? 如果百度 spider 對您的站點抓取壓力過大,請盡量不要使用 404,同樣建議返回 503。這樣百度 spider 會過段時間再來嘗試抓取這個鏈接,如果那個時間站點空閑,那它就會被成功抓取了。

  ? 有一些網(wǎng)站希望百度只收錄部分內(nèi)容,例如審核后的內(nèi)容,累積一段時間的新用戶頁等等。在這種情況,建議新發(fā)內(nèi)容暫時返回 403,等審核或做好處理之后,再返回正常狀態(tài)的返回碼。

  ? 站點遷移,或域名更換時,請使用301返回。


以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號