多语言展示
当前在线:1041今日阅读:75今日分享:44

robot文件如何创建

有时候,我们的网站有些后台地址或者是动态地址等不希望被搜索引擎搜索到,这时候robot文件就起到它的作用了。
工具/原料
1

文本文档

2

robots 文件语法大全

robots.txt文件的作用

制定搜索引擎如何索引你网站的规则,限定哪些页面允许被索引,哪些页面不允许被索引。END

robots.txt文件的创建

(1)当网站本身并不存在robots文件的情况下,新建一个纯文本文档,命名为robots.txt,在此文件中进行编辑,完成后传到对应网站的根目录下即可。(2)网站本身存在robots文件的情况下,下载原robots文件进行编辑,完成后传到对应网站的根目录下。END

robots.txt文件基本格式

User-agent: *Disallow:User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符,也可以是具体的搜索引擎蜘蛛,如Baiduspider 百度蜘蛛Disallow:   按设置禁止访问某些页面,不加内容,表示无限制如   Disallow: /*?*  表示禁止访问网站中所有包含问号 (?) 的网址如下图所示:表示禁止百度蜘蛛访问网站中所有包含问号 (?) 的网址END

robots.txt文件主要语法

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符Disallow: /目录名/  禁止访问某个目录Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以'.htm'为后缀的URL(包含子目录)。Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。END

robots.txt文件常用示例
1

允许所有搜索引擎访问网站的所有部分User-agent: *Disallow:

2

禁止所有搜索引擎访问网站的所有部分User-agent: *Disallow: /

4

禁止蜘蛛访问某个目录(如禁止admin,css,images三个目录被索引)User-agent: *Disallow: /css/Disallow: /admin/Disallow: /images/(注意三个目录需要分开写,一行写一个)

5

禁止索引网站中所有含有“?”网址User-agent: *Disallow: /*?*还有很多相关设置,在这里无法做一一列举,需要大家触类旁通,以及下载一份较全的robotot文件语法。

主要搜索引擎蜘蛛名称
1

Googlebot:谷歌蜘蛛

3

Yahoo! Slurp :雅虎蜘蛛

注意事项
1

robots.txt文件名必须是全小写

2

有多项设置的时候,必须分开写,一行一个设置

3

最好下载一份语法大全,对照着写,不然很容易出错,可能造成严峻的问题

4

robots.txt 主要有个s哦,小编刚刚就犯了个不可原谅的错误,写成了robot.txt

推荐信息