通常,網站管理員會抱怨蜘蛛以304狀態獲取返回代碼,爬行次數越來越少。搜索引擎將盡最大努力提高檢索調用率、準確性和新鮮度,以滿足自己的用戶體驗,這將導致搜索引擎不得不專注于具有高質量內容源的網站。只有這樣,搜索結果的質量才能更符合搜索者的體驗
因此,我們認為搜索引擎爬蟲更喜歡頻繁更新內容源的網站。通過對在特定時間內返回到網站的狀態代碼進行爬網,可以調整網站的爬網頻率。如果站點在一段時間內處于304狀態,引擎爬蟲可能會減少其對站點的爬網次數。相反,如果網站變化很快,每個爬蟲都可以得到一個新版本,爬蟲的返回率會隨著時間的推移而增加
無論是少還是304,這都是現象,而不是問題的原因。我們能把網站的流量增加200嗎?相反,我們應該考慮生產304的原因。變更對網站目標有何影響?我們不能忽視一般目的。標簽強調了過程的細節,并解決了304/200
304的狀態是如何形成的
為了提高網站的訪問速度,服務器為一些以前訪問過的頁面建立了緩存機制。當客戶端在此處請求這些頁面時,服務器將根據緩存的內容判斷這些頁面是否相同。如果頁面相同,它將直接返回到304。此時,客戶端調用緩存的內容,而不進行第二次調用。下載時,可以說304在一定程度上起到了減少服務器帶寬和提高爬行器爬行效率的作用
304為什么會生成狀態碼
頁面更新周期長或無更新
2。純靜態頁面或強制靜態HTML生成
304狀態處理方法
1。首先細分生成的304頁。什么樣的頁面返回304?如果這些頁面返回304
2。這些頁面是如何生成的?是否有更新機制?更新機制是否與蜘蛛爬行網站的頻率一致
3。頁面更新區域的位置是否合理?是否位于頁面主要內容的托管區
4、304狀態碼過多可能導致以下問題:
停止網站快照
減少收集量
減輕重量
如何減少304返回碼
首先,內容更新要迎合百度蜘蛛,分析日志,記錄蜘蛛訪問的時間,大致得到蜘蛛訪問的頻率。然后,根據以下內容更新文章:原創+復制,而不是純粹的收藏。復制還需要新的優質資源,以便爬行器獲取,這將返回200多個普通代碼;其次,嘗試添加一個交互式部分。現在大型網站基本上都做到了這一點,比如評論、消息等等。大型網站的更新可能變化不大,但通過這些交互,用戶會發送一些內容,網站會有很多新東西。