最新消息:

如何正确使用robots.txt?

SEO方法 谋道网络-吴锋 3797浏览 0评论

关于robots.txt是个老生常谈的话题,其作用这里谋道网络吴锋就不多说了,今天重点说说如何正确使用robots.txt?

1、robots.txt 文件位置

robots.txt文件只有放在你站点根目录下才会生效。如果你不清楚哪个目录是根目录,可以通过 “www.seoxj.com/robots.txt” 来访问robots.txt文件(请将红色处的域名换成你网站域名),如果返回结果与你写的内容一致,证明文件目录放置正确。如果有二级域名,则应放在二级域名的根目录下。

2、搜索引擎解析robots.txt 的顺序

搜索引擎解析robots.txt 是自上而下解析的,举个例子:

User-agent: *
Disallow: /
Allow: /SEO/

上面的写法,错误的理解是这样:禁止所有搜索引擎蜘蛛抓取根目录内容,允许抓取SEO目录内容。

但实际上搜索引擎是:禁止所有搜索引擎蜘蛛抓取网站根目录内容,因为SEO目录也属于网站根目录,受前面规则的影响,搜索引擎蜘蛛会忽略 Allow: /SEO/ 这行,所以蜘蛛不会对此网站的任何目录进行抓取。

假如想要允许所有蜘蛛抓取SEO目录,禁止其它目录和文件被所有蜘蛛抓取,正确的写法应该是这样的:

User-agent: *
Allow: /SEO/
Disallow: /

3、目录和文件名的正确写法

如果要禁止整个目录,正确应该这样写“Disallow: /SEO/”,而“Disallow: /SEO”的禁止根目录下的SEO开头的目录和文件,如果你有一个名为SEO的程序文件,那同样也会被禁止抓取,请注意/SEO不是规范的目录格式

4、区分大小写

robots.txt文件里的规则是区分大小写的,/SEO/和/seo/代表的是2个不同目录,User-agent: Baiduspider 和 User-agent: baiduspider定义的是2个不同蜘蛛,典型的例子大家可以看看淘宝主站的robots.txt写法。

5、不同搜索引擎对robots.txt解析有细微差异

虽然搜索引擎原则上都是遵循robots协议的,但是针对特殊情况,每个搜索引擎在处理上会存在细微差异,具体的差异可以查看搜索引擎官方的说明文档或者使用搜索引擎官方的站长工具来验证。当然国内个别搜索引擎偷鸡摸狗的做法,就不在此列了。

总结:虽然robots.txt语法较简单,但在实际使用过程中会出现一些“事与愿违”的结果,如果找不到问题的原因时,你可以检查一下你的robots.txt文件是否书写正确,在确定没问题后如果问题依然存在,可以在本文后留言交流。

以下是吴锋收集的一些robots.txt相关的帮助资源

1、百度robots.txt站长工具:http://zhanzhang.baidu.com/robots  (在线检测生成robots.txt)

2、Google对robots.txt的官方说明:https://support.google.com/webmasters/answer/156449?rd=1

 

转载请注明:谋道网络-吴锋 » 如何正确使用robots.txt?

您必须 登录 才能发表评论!