1. 首页
  2. 北京SEO

「北京SEO」蜘蛛页面抓取异常应如何处理?

导读:网站收录是很多SEO优化从业人员比较关注的,因此了解页面是如何被搜索引擎收录的,了解搜索引擎的收录原理,都是极有好处的,能帮助你在进行网站SEO的时候尽量遵循收录的规律,提高网站被收录的比例。下面就来和小编一起来了解下蜘蛛页面抓取异常应如何处理?

网站收录是很多SEO优化从业人员比较关注的,因此了解页面是如何被搜索引擎收录的,了解搜索引擎的收录原理,都是极有好处的,能帮助你在进行网站SEO的时候尽量遵循收录的规律,提高网站被收录的比例。下面就来和小编一起来了解下蜘蛛页面抓取异常应如何处理?
「北京SEO」蜘蛛页面抓取异常应如何处理?  1、各类返回码代表什么?

搜索引擎在抓取网页的时候,可能会遇到各种情况,有的页面抓取成功,有的抓取失败。怎么显示一个页面的实际抓取结果呢?主要是通过返回码进行示意,代表抓取成功与否和遇到的问题。

比如我们常见的,有时候打开一个页面,页面一片空白,上面只显示404。这里的404就是一种返回码,代表当前抓取的页面已经失效,遇到显示404的页面,如果短期内搜索,蜘蛛再发现这个URL,也不会对其进行抓取。

有时候,会返回503,503返回码代表网站临时无法访问。可能是网站服务器关闭或者其他临时措施造成的网页无法访问,一般来说,蜘蛛还会继续抓取几次。如果网站恢复正常,URL仍然被当作正常URI处理。如果服务器一直处于不可访问状态,那么搜索引擎就会将这些URL彻底从库中删除。这就要求我们必须维护网站的稳定性,尽量避免临时关闭的情况发生。

返回码403是禁止访问状态,一般来说,如同503一样,如被多次访问仍处于禁止访问状态,就会被搜索引擎从库里面删除。

在返回码中,有一类需要格外注意的就是301。301代表永久性移除,当前URL被永久性重定向到另外的URL。一般来说,因为改版等原因,部分URL需要永久被替换为新URL,就必须使用返回码301进行处理,这样能把权重等一并带过去,避免网站的流量损失。

返回码301的优化写法如下:

(1)创建一个htaccess.txt文件。

(2)在htaccess.txt里写好返回码30l的跳转信息。

假设旧的URL为abc.com,需要重定向到www.abc.com,需在文件里写如下信息:

RewriteEngine on

RewriteCond%{http_host}abc.com[NC]

RewriteRule^(.*)$ http://www.abc.com/$1[L,R=301]

(3)将htaccess.txt上传到FTP,然后将htaccess.txt修改为.htaccess。

需要提醒的是:目前htaccess只适用于Linux系统,并需要虚拟主机支持,因此在考虑htaccess文件处理返回码301的时候,需要查看虚拟主机是否完全支持。

2、信息无法被抓取到如何解决?

(1)采用搜索引擎平台提供的开发平台等数据上传通道,可以针对数据进行独立的提交。

(2)采用Sitemap提交方式。大型网站或者结构比较特殊的网站,沉淀了大量的历史页面,这些历史页面很多具有SEO的价值,但是蜘蛛无法通过正常的爬行抓取到,针对这些页面,建立Sitemap文件并提交给百度等搜索引擎是非常必要的。

蜘蛛在爬行网站的时候,会遵循网站的协议进行抓取,比如哪些网页可以给搜索引擎抓取,哪些不允许搜索引擎抓取。常见的协议有HTTP协议、HTTPS协议、Robots协议等。

HTTP协议规范了客户端和服务器端请求和应答的标准。客户端一般是指终端用户,服务器端指网站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送HTTP请求。发送HTTP请求会返回对应的HTTP Header信息,我们可以看到包括是否成功、服务器类型、网页最近更新时间等内容。

HTTPS协议是一种加密协议,一般用户安全数据的传输。HTTPS是在HTTP下增加了SSL层,这类页面应用比较多的是和支付相关或者内部保密信息相关的网页。蜘蛛不会自动爬行该类网页。因此,从SEO角度考虑,在建站的时候尽量对页面的性质进行区分,对非保密页面进行HTTP处理,才能实现网页的抓取和收录。

本站是SEO技术原创文章,作者:典创SEO创作,如若转载,请注明出处:https://www.dcseo.cn/704.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

在线咨询:点击这里给我发消息

邮件:911477630@qq.com

QR code