事實上,我們日志中的許多百度Pider都是被別人偽裝的。來解決這個問題。我們必須努力驗證百度pider的真實性。本文詳細介紹了爬蟲的識別方法
當我們根據網站日志分析搜索引擎蜘蛛捕獲的網頁記錄時,實際上很多網站都有一些偽裝成百度pider的訪問者。這些數據將嚴重影響我們在日志分析后的判斷
為什么這些訪問者假裝是百度皮德爾來訪問我們的網站?最典型的是那些收集你的內容的人。他們知道,許多工具可以看到哪些IP訪問網站太大。例如,今天IP訪問你的網站10000次是否正常?一定是不正常。但如果他是百度pdier呢?呵呵,這很正常
Mozilla/5.0(兼容;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(兼容;Baiduspider渲染/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(Linux;u;Android4.2.2;zhcn;)AppleWebKit/534.46(KHTML,likeGecko)版本/5.1MobileSafari/10600.6.3(兼容;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(iPhone;CPUiPhoneOS9_1likeMacOSX)AppleWebKit/601.1.46(KHTML,likeGecko)版本/9.0Mobile/13B143Safari/601.1(兼容;Baiduspiderrender/2.0;+http://www.baidu.com/search/spider.html)
以上包括百度的常規爬蟲和渲染爬蟲渲染。這兩種爬行動物的區別特征用紅色標記
這個問題可以通過DNS反向查找解決。不同平臺的驗證方法不同。例如,linux/Windows/OS下的驗證方法如下:
1。在Linux平臺上,可以使用hostip命令反轉IP,以確定抓取是否來自Baiduspider。Baiduspider的主機名在百度。Com或百度。JP格式命名,非百度。Com或百度。JP是假的
2。在windows或ibmos/2平臺上,可以使用nslookupip命令反轉IP,以確定抓取是否來自Baiduspider。打開命令處理器并輸入nslookupxxxxxx。xxx。XXX(IP地址)可以解析IP以確定它是否是從Baiduspider獲取的。Baiduspider的主機名用百度表示。Com或百度。JP格式命名,非百度。Com或百度。JP是假的
3。在MacOS平臺上,可以使用dig命令反轉IP地址,以確定抓取是否來自Baiduspider。打開命令處理器并輸入digxxx。xxx。XXX(IP地址)可以解析IP以確定它是否是從Baiduspider獲取的。Baiduspider的主機名用百度表示。Com或百度。JP格式命名,非百度。Com或百度。JP是假的。