为了您能够让用户搜索到,于是百度有搜索引擎爬虫,同时也称为搜索机器人(bots)或是搜索蜘蛛(spiders),会爬取你的,搜索有变动的内容并且重新更新搜索引擎的搜索检索。下面百度seo简单的为大家介绍下robots.txt 文件的作用!
如何用robts.txt 这个文件去控制搜索引擎蜘蛛
SEO站长们可以使用robots.txt这个文件,来指导搜索引擎蜘蛛应该如何爬取这个,当搜索引擎蜘蛛爬取时,会先读取robots文件,并且依照规则爬取。
※ robots.txt规则虽然是重要的,但是搜索机器人不一定会遵守robot.txt规则,它只是一个执行方针。
※以Google而言,要设定Crawl-delay,是必须在Google工具里设定。
※对于浮滥爬取你的的劣质搜索蜘蛛,应该研究如何凭借.htaccess里的User-agent去阻挡不好的搜索蜘蛛。
编辑与创建robots.txt 文件
Robots.txt 文件是必须放在根目录里,如果你的是www.dcseo.cn 是可以读取到的。
位置:
https://www.dcseo.cn/robots.txt
同时可以根据不同的后台内容cms来创建该文件
如果没有这个文件的话,你可以使用txt文本来创建一个新的robots.txt文件,创建好了可以上传到地根目录即可。
搜索引擎蜘蛛是会以robots.txt文件规则来抓取
robots.txt 文件有许多的规则,可以控制搜索蜘蛛如何爬取你得。
User-agent:可以具体指定哪一个User-agent是适用的,如*是万用搭配于全部的User-agent。
Disallow:设定档案或是资料夹,不允许被搜索蜘蛛爬取。
设定全部搜索引擎延迟爬取
如果你的有1000页,搜索蜘蛛可能在几分钟内检索全部的,然而这有可能导致资源使用过度,在短时间内让全部的网页超过负荷,导致网页无法浏览。
延迟30秒的时间,将允许搜索蜘蛛在8.3小时内检索1000张网页。
延迟500秒的时间,将允许搜索蜘蛛在5.8天内检索1000张网页。
你也可以设定Crawl-delay:所有的搜索蜘蛛立即搜索。
User-agent: *
Crawl-delay: 30
关于robot.txt 文件的写法
允许搜索蜘蛛爬取全部
在预设空白情况下,搜索引擎蜘蛛还是会爬取你的,不过你还是可以指定它是允许的。
User-agent: *
Disallow:
不允许搜索蜘蛛爬取全部
User-agent: *
Disallow: /
不允许搜索蜘蛛爬取特定一个
你可以运用这些规则,不允许特定的搜索引擎蜘蛛爬取你的。
User-agent: Baiduspider
Disallow: /
不允许全部搜索蜘蛛爬取特定的文件
如果有些目录如wp-login.php, index.php, 或是后台wp-admin我们不想要搜索蜘蛛爬取,我可以使用:
User-agent: *
Disallow: /wp-login.php
Disallow: /index.php
Disallow: /wp-admin/
除了指定的以外,不允许全部搜索蜘蛛爬取
如果我们只想让Googlebot爬取我们的/gybz/目录,但是不允许搜索蜘蛛爬取,我们可以这样使用:
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /gybz/
当Googlebot读取我的robots.txt文件时,会去理解文件内容,不会禁止全部目录的爬取。
如果想只想要一网页部取检索请参考(江西seo:如何使用<META>标签来搜索引擎检索网页)