导航菜单
首页 » SEO优化教程 » 正文

黑马程序员:关于蜘蛛抓取的一些问题!

黑马程序员最近观察得出2个结论,分别如下:

1、有可能是我网站问题,只有几千个页面,因此一个月内百度几乎爬过所有页面,比例超过90%。

2、百度抓取深度不够,只有不到10%的蜘蛛爬行抓取过2个以上页面,最多的一次抓取过11个页面。

下面就有这么几个问题需要解答:

黑马程序员

同一IP半小时内的抓取我认为是百度蜘蛛爬行一次,这样的标准设置是不是准确?

同一次爬行中抓取的页面之间并没有链接,也就是说百度蜘蛛并没有按照先前页面里的链接往下爬行,而是跳到另个毫不相干的页面上,这是为什么啊?先前爬行的页面正文也有1~2个相关页面链接导出,页面也有专门的相关文章推荐,相关性很强,但百度蜘蛛为什么不爬呢?

黑马程序员下面回答上面几个关于百度蜘蛛抓取点:

1.同一IP 也会来多个蜘蛛。并且同一IP来的蜘蛛是不互通信息的。所以,你会发现同一IP来的蜘蛛会多次抓取一个页面。

2.关于蜘蛛的抓取方式:蜘蛛的抓取方式大部分都是先广度再深度的。所以,你会发现蜘蛛为什么蜘蛛的相关链接不会继续抓而去抓别的页面。同时你会发现很多好的网站都喜欢把内页的东西直接展示在首页上。他们就是为什么了让蜘蛛直接进入内页,然后可以抓取内页里的相关链接的内页。

黑马程序员

顺便扩展几个问题,大家一起来讨论:

1. 为什么蜘蛛的抓取深度是有限制的?难道是为了减少蜘蛛服务器压力,所以蜘蛛只能先抓取有限页面。

2。蜘蛛的抓取深度有什么标准吗? 比如权重高的站,蜘蛛的抓取深度就会深点吗?

3. 蜘蛛不按照深度来抓取,而是按照抓取的链接数量来? 为什么有这个想法,是因为我这里构思了个小的模型测试例子。

黑马程序员

黑马程序员一个首页里就放一个链接,进入链接后的页面也只有1个链接,再进入链接后还是只有一个链接的页面。。。。。。一直到N个页面。这样的模型结构,难道蜘蛛也只是抓取很浅的深度? 但是,这样的页面结构对蜘蛛服务器来说没什么压力的呀~?

评论(0)

二维码