多语言展示
当前在线:1850今日阅读:86今日分享:14

如何创建Robot

robot英文翻译过来:机器人 robots.txt文件也很好理解:搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。robots.txt这个文件用于指定spider(蜘蛛)在您网站上的抓取范围。
方法/步骤
1

robots.txt文件应该放置在网站根目录下。比如,当spider访问http://www.xxx.com时,首先会检查该网站中是否存在http://www.xxx.com/robots.txt这个文件,如果Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

2

每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误文件(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误文件,所以不管你是否需要屏蔽蜘蛛抓取,都应该在网站中添加一个robots.txt。

3

一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。这些内容目录可以通过robots.txt屏蔽。

4

robots.txt里主要有两个函数:User-agent和 Disallow。

5

robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:   Sitemap: http://www.xxx.com/sitemap.xml

6

举例个robots.txt,不懂的朋友可以根据自己的网站情况,作为参考。User-agent: *   Disallow: /admin/ 后台管理文件   Disallow: /require/ 程序文件   Disallow: /attachment/ 附件   Disallow: /images/ 图片   Disallow: /data/ 数据库文件   Disallow: /template/ 模板文件   Disallow: /css/ 样式表文件   Disallow: /lang/ 编码文件   Disallow: /script/ 脚本文件

7

文件里面至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写Disallow: / (注:只是差一个斜杆)。

推荐信息