文本文档
robots 文件语法大全
制定搜索引擎如何索引你网站的规则,限定哪些页面允许被索引,哪些页面不允许被索引。END
(1)当网站本身并不存在robots文件的情况下,新建一个纯文本文档,命名为robots.txt,在此文件中进行编辑,完成后传到对应网站的根目录下即可。(2)网站本身存在robots文件的情况下,下载原robots文件进行编辑,完成后传到对应网站的根目录下。END
User-agent: *Disallow:User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符,也可以是具体的搜索引擎蜘蛛,如Baiduspider 百度蜘蛛Disallow: 按设置禁止访问某些页面,不加内容,表示无限制如 Disallow: /*?* 表示禁止访问网站中所有包含问号 (?) 的网址如下图所示:表示禁止百度蜘蛛访问网站中所有包含问号 (?) 的网址END
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符Disallow: /目录名/ 禁止访问某个目录Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以'.htm'为后缀的URL(包含子目录)。Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。END
允许所有搜索引擎访问网站的所有部分User-agent: *Disallow:
禁止所有搜索引擎访问网站的所有部分User-agent: *Disallow: /
禁止蜘蛛访问某个目录(如禁止admin,css,images三个目录被索引)User-agent: *Disallow: /css/Disallow: /admin/Disallow: /images/(注意三个目录需要分开写,一行写一个)
禁止索引网站中所有含有“?”网址User-agent: *Disallow: /*?*还有很多相关设置,在这里无法做一一列举,需要大家触类旁通,以及下载一份较全的robotot文件语法。
Googlebot:谷歌蜘蛛
Yahoo! Slurp :雅虎蜘蛛
robots.txt文件名必须是全小写
有多项设置的时候,必须分开写,一行一个设置
最好下载一份语法大全,对照着写,不然很容易出错,可能造成严峻的问题
robots.txt 主要有个s哦,小编刚刚就犯了个不可原谅的错误,写成了robot.txt