搜索引擎抓回頁面,下一步是分析頁面內容,主要包括確定頁面類型、提取頁面主題、去除頁面噪音、去除停止詞、中文分詞、注冊統計、重新建立關鍵詞索引數據庫
判斷頁面是普通頁面還是PDF、WPS、PPT、TXT等特殊頁面;區分文本、圖片、視頻等內容形式,識別頁面網站、論壇、視頻站、文本站等
目前搜索引擎基本上不識別JS、AJAX、flash、圖像、視頻、框架和iframe框架結構的內容。它們主要通過文本關鍵字捕獲文本處理和搜索信息。提取頁面級功能內容,如標題、關鍵字和描述。這些特征在網頁的內容相關性中占很大比例。在正常情況下,它還指示網頁的主題
刪除不相關的廣告、登錄框、版權聲明和其他噪音內容,并提取主題內容。這部分不是很嚴格,每個搜索引擎的處理也不一樣。一般來說,推薦內容、錨文本、導航等仍然很有價值
分詞在中文搜索引擎中是一個獨特的步驟。搜索引擎需要識別哪些單詞可以組合成單詞。每個搜索引擎都有自己的大型詞庫。根據詞表匹配,漢語分詞主要有兩種方法:基于詞典的匹配和基于統計的分詞。它們各有優缺點。在實際應用中,他們混合了這種方法,不僅快速有效,還可以識別新詞并消除歧義
百度搜索引擎可以使用快照頁面查看輸入文本被劃分為哪些關鍵字,如下所示:
分詞的目的是了解網頁的內容。首先刪除“de”、“de”、“ah”和“Ba”等停止詞,以使頁面文本的主題內容更加突出。當然,虛詞不是很好。例如,以“啊”為主題介紹新華字典的發音、意思、用法等頁面,“啊”是主題關鍵詞。關鍵詞排名優化是不斷跟蹤和分析搜索引擎條目和歷史數據
分詞后,搜索引擎會計算每個單詞出現在頁面上的次數并計算密度,以便搜索引擎能夠識別頁面內容的相關性。建議關鍵詞布局密度在2%到8%之間。如果太低,可能會被認為是主題內容的低相關性,如果太高,可能會被認為是不喜歡關鍵字堆疊,這很容易受到懲罰
從網站索引的建立,我們可以估計網站的優化結果
內容相關性:除了頁面標題、關鍵字、描述和單詞密度,H標簽(H1標簽也很重,通常用于文章標題,H2和H3標簽也有一定的效果,通常用于分段主題,但H4之后不會),加粗體標簽的內容明顯比其他普通標簽更受關注。此外,核心關鍵詞最好出現在頁面的前面,而不是后面。錨文本鏈接相關性作為重要數據收集和分析
搜索引擎喜歡原始內容,不喜歡許多重復的內容頁。完成上述步驟后,他們可以識別頁面的內容功能,并再次重復內容頁面
經過上述處理后,記錄頁面關鍵字集,并記錄詞頻、位置和格式(H標記、粗體和錨文本)等權重因子。搜索引擎為頁面和關鍵字表創建索引結構。該指數有兩種結構:正向指數結構和反向指數結構。在正向索引結構中,每個文件對應一個文件ID,文件內容表示為一組關鍵字
搜索引擎用戶按關鍵字搜索。正索引不利于查詢效率。搜索引擎將把正向索引變成反向索引。反向索引結構是關鍵字到文件集的映射。用戶只會檢索索引頁面
包括:只要搜索引擎蜘蛛能夠捕捉到,經過分析,有價值的頁面就會被包括
索引:如果搜索引擎已經包括頁面,并且認為用戶有有有意義的會議內容,它可能會創建一個索引,并且可能會有流量。網站排名優化基于已被索引的網頁
奇藝推送SEO的小編輯提醒您,只要網站結構清晰,內容有價值,網站定期更新,站長平臺就會提交鏈接和傳出鏈接,以改進網站上搜索引擎的收集和索引。很有可能在2-7天內優化主頁
百度蜘蛛抓取多少頁面不是很重要,重要的是建立多少頁面的索引庫。搜索引擎的索引數據庫是分層的。高質量的網頁將分配給重要的索引數據庫,普通網頁將保留在普通數據庫中,較差的網頁將分配給低級數據庫作為補充材料。目前,60%的檢索需求只能通過使用重要的索引庫來滿足,這也是一些網站的收藏量太高,但流量不理想的原因
進入高質量索引數據庫的前提是對用戶的價值。包括但不限于:
事實上,互聯網上的大多數網站根本不被百度收錄。并不是百度沒有找到它們,而是建立數據庫之前的篩選過程被過濾掉了。過濾初期:
一些內容使用百度蜘蛛無法解析的技術,如JS、AJAX、flash、圖片、視頻等。