多语言展示
当前在线:724今日阅读:39今日分享:10

企包在线优化之如何解决蜘蛛页面抓取异常

蜘蛛虽然人性化,但终究是程序,有时候抓取的页面可能存在一些问题,抓取页面异常这对我们企包在线优化非常不利,那么蜘蛛页面抓取异常,又该如何解决?
工具/原料
1

互联网

2

电脑

一、各类返回码代表什么?
1

(一)404返回码有时候我们打开一个页面,页面一片空白,上面只显示404。这里的404就是一种返回码,代表当前抓取的页面已经失效,遇到显示404的页面,如果短期内搜索,蜘蛛再发现这个页面,也不会对其进行抓取。

2

(二)503返回码有时候会返回503,503返回码代表网站临时无法访问。可能是网站服务器关闭或者其他临时措施造成的网页无法访问,一般来说,蜘蛛还会继续抓取几次。如果网站恢复正常,URL仍然被当作正常URI处理。如果服务器一直处于不可访问状态,那么搜索引擎就会将这些URL彻底从库中删除。这就要求我们企包在线优化必须维护网站的稳定性,尽量避免临时关闭的情况发生。

3

(三)403返回码返回码403是禁止访问状态,一般来说,如同503一样,如被多次访问仍处于禁止访问状态,就会被搜索引擎从库里面删除。

4

(四)301返回码在返回码中,有一类需要格外注意的就是301。301代表永久性移除,当前URL被永久性重定向到另外的URL。一般来说,因为改版等原因,部分URL需要永久被替换为新URL,就必须使用返回码301进行处理,这样能把权重等一并带过去,避免网站的流量损失。

二、信息无法被抓取到如何解决?
1

(一)采用搜索引擎平台提供的开发平台等数据上传通道,可以针对数据进行独立的提交。

注意事项

蜘蛛在爬行网站的时候,会遵循网站的协议进行抓取,比如哪些网页可以给搜索引擎抓取,哪些不允许搜索引擎抓取。 常见的协议有HTTP协议、HTTPS协议、Robots协议等。

推荐信息