Http404或notfound錯(cuò)誤消息是HTTP標(biāo)準(zhǔn)響應(yīng)信息(HTTP狀態(tài)碼)之一意味著服務(wù)器在瀏覽網(wǎng)頁時(shí)無法正常提供信息,或者服務(wù)器無故無法響應(yīng)。
1.許多網(wǎng)站無法避免死鏈接的存在,但死鏈概率高會(huì)影響搜索引擎對網(wǎng)站的評級。
2.搜索引擎每天抓取每個(gè)網(wǎng)站的頻率。如果網(wǎng)站有很多死鏈接,會(huì)浪費(fèi)配額,影響正常頁面的抓取。
網(wǎng)站優(yōu)化和改進(jìn)措施" />
3.太多的死鏈對網(wǎng)站用戶來說也是不好的表現(xiàn)。
百度站長工具有抓取異常,那么這個(gè)工具是如何產(chǎn)生異常數(shù)據(jù)的呢?
編輯錯(cuò)誤或程序員粗心地使頁面不存在。
由于服務(wù)器、空間或程序問題,網(wǎng)站暫時(shí)無法訪問,導(dǎo)致大量服務(wù)器頁面錯(cuò)誤,返回代碼為500。
當(dāng)單個(gè)爬蟲程序提取頁面URL它們只提取URL部分或正常URL后續(xù)文本或字符。
在網(wǎng)站修改過程中,舊頁面直接刪除,或301跳轉(zhuǎn)后部分舊頁面無法訪問。
網(wǎng)站管理員刪除了被黑客、廣告、過期和淹沒的頁面,導(dǎo)致許多死鏈接。
網(wǎng)頁異常中的許多錯(cuò)誤頁面都是由程序員的疏忽或我們的程序問題引起的。它們應(yīng)該是普通的頁面,因?yàn)殄e(cuò)誤而無法訪問。請盡快修復(fù)此頁面。
404錯(cuò)誤頁面阻礙網(wǎng)站優(yōu)化和改進(jìn)措施
然而,不應(yīng)該存在許多錯(cuò)誤的頁面,因此我們需要找到獲取這些頁面的方法URL,主要有三種方式:
(1)百度站長工具-抓取異常-頁面未找到-復(fù)制數(shù)據(jù)[修復(fù):此處無需提交死鏈,百度站長工具自動(dòng)提交死鏈];
(2)刪除頁面時(shí),管理員手動(dòng)或自動(dòng)保存刪除的頁面URL;
(3)使用相關(guān)爬蟲軟件爬行整個(gè)網(wǎng)站,獲得死鏈,如Xenu。
然后將上述處理數(shù)據(jù)粘貼到網(wǎng)站根目錄下的文檔中,并將文檔地址提交給百度站長工具-網(wǎng)頁抓取-死鏈提交-添加新數(shù)據(jù)-填寫死鏈文件地址。
若大量錯(cuò)誤url如果你有一些規(guī)則,你可以robots在文件中編寫規(guī)則,以防止爬行器獲得此類鏈接,但前提是正確處理正常頁面,避免損壞正常頁面。
添加規(guī)則robots文件完成后,必須去百度站長robots驗(yàn)證工具,放入指定的錯(cuò)誤頁面,檢查攔截是否成功,然后放入正常頁面,檢查是否被錯(cuò)誤攔截。
相關(guān)注意事項(xiàng):
1.在百度站長工具中提交死鏈接之前,請確保提交的死鏈接數(shù)據(jù)中沒有活鏈接。一旦有活動(dòng)鏈,將顯示提交失敗,無法刪除。
2.由于許多網(wǎng)站程序問題,許多無法打開的頁面返回碼不是404,這是一個(gè)大問題。例如,無法打開的頁面返回碼為301、200、500。假如是200,網(wǎng)站上會(huì)出現(xiàn)不同的網(wǎng)站,以獲得相同的內(nèi)容。例如,在我的一個(gè)網(wǎng)站上,社區(qū)帖子被刪除后,返回代碼實(shí)際上是500。后來發(fā)現(xiàn)了,馬上處理。試著找出所有的錯(cuò)誤URL格式,并將HTTP404設(shè)置狀態(tài)代碼。
3.找到所有錯(cuò)誤的頁面后,一定要找到這些頁面URL它們與普通頁面的特征相同。將相應(yīng)的規(guī)則寫入robots并禁止文件spider獲取它們。即使您已經(jīng)在網(wǎng)站管理員工具中提交了死鏈,建議機(jī)器人攔截并抓取它們。
4.機(jī)器人只能解決蜘蛛不再抓取此類頁面的問題,但不能解決刪除包含頁面的快照的問題。如果您的網(wǎng)站是黑色的,并且黑色頁面被刪除,除了機(jī)器人禁止的黑色頁面外,這些頁面還應(yīng)提交到死鏈。