服务器log的百度蜘蛛ip数据分析@steven | 崇州网络公司
服务器日志除了找404的问题,找异常ip、看蜘蛛爬取的次数、是否爬取过重要页面以外,相信还有很多的作用。 某在想着怎么快速解决手游站收录的时候,突发奇想,记得以前看过某个人对于百度蜘蛛字段的分析,所以想用这个东西加以分析一下,看一下目前手游站百度蜘蛛抓取的情况到底是怎样的。
【成都南奇网络】cdnanqi.cn具体的字段区分看这里,但我不知道是否还有用http://www.aiwom.net/post/baiduspider.html 但我想大家只要记录下以下的4点摘要OK了 123.125.71.* 低权重汇总:抓取内页收录的,权重较低,爬过此段的内页文章暂时被收录但不放出来(意思也是说待定),因不是原创或采集文章 220.181.108.* 权重蜘蛛汇总:主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,24小时内放出来和隔夜快照的! 220.181.68.* 沙盒:每天这个IP段只增不减很有可能进沙盒或K站 61.135.168.* 抓取图片的百度蜘蛛
现在言归正传,在对比了这位大大总结的内容之后,再匹配日志查看,有几个论证和猜想: 爬取收录上: 1、220.181.108.*字段开头的确实是高权重ip,这点应该没有大问题。但高权重的字段不表示一定会收录,猜测可能和目录的新旧还是有一定关系的,旧有目录在高权重的ip下一爬基本都会隔天收录,甚至有些当天放出来;但如果是新加了的目录层级,貌似即使蜘蛛爬过了也不会马上放出来,这个周期目前看起来对于新站来说,是很漫长的过程(具体多漫长,我猜测1个月至少,还和站点的建设情况有关。) 2、123.125.71.*来的是低权重的字段,在收录效果上,我不能很明确的说yes,在结果中确实也出现了被这个ip爬取后第二天还显示出来的收录结果。
权重赋予上: 1、220.181.108.*字段的怎么说,爬过的给予的权重不低。我列这么个构想图吧 (1)、 高权重爬取(保证了收录)->的标题->文章标题全匹配搜索,肯定位 高权重爬取(保证了收录)->抄别人的标题->文章标题全匹配搜索,结果也不会太差,貌似前3页肯定找得到 而且还会碰到这样,比如文章1的上下篇里有另一篇文章2的标题,即使文章2没被爬过和收录,只要文章1被高权重爬过并放出来,全匹配搜索文章2的标题,文章1也会经常堂而皇之的出现在搜索结果里。 (2)、 低权重爬取的被收录后,只要资源不是稀缺形的,全标题匹配搜索还真不一定能找到。。。搜索结果展示确实不如高权重蜘蛛爬过的。
然后我们来看手游站近一周的分析数据 ,分析完了后发现,终收录结果貌似和是否高、低权重蜘蛛爬过没有关系,只影响收录的速度,有种被忽悠的感觉。但归根结底还是数据量小,时间长度拉的不够,其实如果要验证是否高权重蜘蛛爬取的收录更快的话,还是应该看下当天爬取后隔天的收录结果更准确。
其他的研究结果: 1、“百度诊断”工具来的蜘蛛是低权重蜘蛛字段。heng~这样的逆推的话,估计在搜索结果里提示找不到要你提交url的那个功能估计也是低权重的蜘蛛字段 2、百度“站内搜索”提交的sitemap索引,来的是高权重的蜘蛛字段~
推荐阅读
服务器log的百度蜘蛛ip数据分析@steven | 崇州网络公司 https://cdnanqi.cn/chongzhou/1186.html