详细内容

页面不收录?可能是抓取诊断的原因

image.png

没抓取怎么能收录,又怎么有排名?但是这么一个显而易见的问题,很多网站都忽略了它。网站出现抓取错误,直接严重影响网站的成长效果。如果您有幸今天的这篇文章,希望能读完今天的文章,并与大家分享,因为它将是非常宝贵的。

曾经诊断过的很多收录站点,可是却总是被反复的剔除、重复收录,企业一直找不到问题。但是从检查网站开始的时候我们就发现了一个奇怪的现象:

1、封禁错误。

如果多次点击“检测与更新”,在百度的robots.txt更新中,会出现经常可以更新的问题,但也常常不能更新。所以,那些不该被收录的内容,被robots.txt收录并重新删除是正常的。那这到底有什么问题?这并不是服务器负载过重,而是因为防火墙错误地将部分Baiduspider列入黑名单。

2、服务器异常。

普通服务器就不说了,大家都知道,北上广一般都不错。但是对于一些特殊的服务器,想必大多数站长都不知道吧?比如西部数码的“港台服务器”就很有意思,真的是港台吗?自身机房在国内,还算什么港口?用一个IPIP来逃避备案,资料全在国内。

那有什么坏处?我们会发现:站点的服务器是经过CDN的,即使是您上传的一张图片,都会显示为“302状态码”,访问速度也是提高了,但是这样会不会有利于SEO?哈哈哈哈。难道西数作为国内大型idc服务提供商怎么想,利用这些无知呢?

3、无法获得真正的IP。

一些大型网站,通常会使用CDN来加速,但一些网站不仅使用CDN来加速“装置”,还用来加速Spider。最终结果如何呢?对于那些CDN节点来说,这个问题对于网站spider来说是致命的。

许多大网站开放CDN的原因是容易受到攻击,这个时候如果不做“蜘蛛回血”就可想而知了。你们网站上有没有CDN?登入百度站长平台看看spider能否抓到真正的IP地址吧!

经常出现50X类错误。

这类链接有一个共同点:打开后,一切正常,那么Spider为什么报错提示?仅仅因为当爬虫开始抓取时,httpcode返回了5XX",这类问题是否经常出现在您的站点上?有些话需要马上安排技术,或者通知IDC服务商来解决!

5、抓错比例。

没有一个网站能做到100%不出错,但每一件事都有一个度:我们认为这个比例不超过5%,基本上对网站没有影响,而且这种错误不应该每天都出现。大多数常见的抓取错误都是连接超时:"抓取请求连接建立后,下载页速度太慢,导致超时,可能是由于服务器超载,带宽不足"这种情况

A:尽量在不影响图片质量的前提下,将图片压缩,上传时进行压缩。

B:减少对JS脚本文件类型的使用,或者进行合并。

控制页面大小,特别是有些浏览量大、抓取过多的网页,建议不要超过2MB。

D:提高网站带宽,提高下载速度,或更换服务器。