在診斷過程中,我們會遇到這樣的問題。有些網頁內容很好,用戶可以正常訪問。然而,搜索引擎蜘蛛只是不能正常訪問和抓取它們,導致搜索結果覆蓋率不足,這是百度等搜索引擎和網站的損失。百度稱之為“搶奪例外”。對于很多內容不能正常抓取的網站,100搜索引擎會認為網站存在用戶體驗的缺陷,降低網站的評價,在抓取、索引、排序等方面會受到一定程度的影響,從而終影響網站從搜索引擎獲取流量。
下面總結一些常見的搜索引擎蜘蛛抓取不到的原因,供大家參考。
有兩種服務器連接異常:一是網站不穩定,百度蜘蛛在嘗試連接到你的網站服務器時暫時無法連接;二是百度蜘蛛已經無法連接到你的網站服務器。
服務器連接異常的原因通常是您的網站服務器太大和過載。您網站上的程序也可能無法正常工作。此方法可以檢查空間的服務器(如Apache、IIS)是否已安裝或正常運行,或者空間的防火墻是否阻止蜘蛛爬網。
有兩種網絡運營商:電信、聯通和移動。百度蜘蛛無法通過運營商的網絡訪問你的網站,所以你需要聯系運營商,或者購買更好的服務空間或CDN服務。
當百度蜘蛛無法解析你的網站IP時,就會出現DNS異常。可能是你的網站IP地址不對,或者百度蜘蛛被域名服務商禁止。您可以使用whois或host來檢查您網站的IP地址是否正確和可解析。如果沒有,請與域名服務提供商聯系。例如,pro犁SEO的域名提供商是Wannet,并更新IP地址。
IP屏蔽的性能包括:限制網絡的導出IP地址,禁止該IP段的用戶訪問內容,特別是屏蔽百度蜘蛛的IP地址。當你的網站不想百度蜘蛛訪問,你可以設置它。如果您希望百度蜘蛛訪問,請檢查相關設置,或聯系空間服務提供商更改設置。當然,百度蜘蛛一般都會搶到它。
總結搜索引擎蜘蛛抓取不到頁面的原因及改善措施
簡而言之,死鏈接指的是正常但后來失敗的鏈接。當死鏈接發送請求時,服務器返回404錯誤頁。死鏈包括協議死鏈和內容死鏈。協議死鏈:由頁面的TCP協議狀態/HTTP協議狀態明確指示的死鏈,如404,403,503狀態等內容死鏈:服務器返回的狀態是正常的,但內容已被更改為不存在的信息頁,已被刪除,或需要權限,與原文內容無關。
對于死鏈,建議網站使用協議死鏈,通過百度站長平臺死鏈工具提交給百度,這樣百度可以更快地找到死鏈,減少死鏈對用戶和搜索引擎的影響。
將網絡請求重定向到另一個位置是一個跳轉,它指的是以下情況:
(1)當前頁是無效頁(包括要刪除的內容、死鏈等),直接跳轉到上一個目錄或主頁。百度的建議是刪除無效頁面的入口超鏈接。
(2)長期以來跳轉到其他域名,如更改網站域名,百度建議使用301重定向跳轉協議進行設置。
(3)對于百度引薦人的例外情況:該網頁不用于百度引薦人的正常行為;
(4)對于Baidu-UA的例外:返回Baidu-UA頁面的行為與頁面的原始內容不同;
(5)JS跳轉異常:網頁加載百度無法識別和發送的JS跳轉代碼,用戶通過搜索結果進入網頁后跳轉。
(6)偶爾因壓力過大而被禁:百度會根據網站規模、訪問量等信息自動設置合理的抓取壓力。但在壓力控制異常等異常情況下,服務器會根據自身負載進行保護意外閉鎖。在這種情況下,請在返回碼中返回503(503serviceunavailable,等同于404serviceunavailable),百度蜘蛛會在一段時間內再次嘗試抓取鏈接。如果網站處于空閑狀態,將成功對其進行爬網。