多语言展示
当前在线:1891今日阅读:3今日分享:40

如果防止自己的网站被搜索引擎收录

如何防止自己的网站或网站中的部分内容被搜索引擎访问呢?首先我们必须得明确一个问题,那就是搜索引擎获取信息的方式:搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。我们可以通过在网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜 索引擎只收录指定的内容。下面小编和大家来探讨一下防止自己网站中的内容被搜索引擎访问的方法。
工具/原料

文本编辑器

方法/步骤
1

在网站的根目录下创建一个名为“robots.txt'的文本文件。实现这一步之后,任意一个搜索引擎访问自己的网站时,都会首先查找该文件,然后它就会根据这个文件的内容,来确定它访问的权限和范围。网站的目录结构如图所示。

robots.txt文件格式
1

“robots.txt”文件包含一条或多条记录,这些记录通过空行分开(以CR、CR/NL、or NL作为结束符),每一条记录的格式如下所示:  “:”  在该文件中可以使用#进行注释,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行。

2

User-agent:该项的值用于描述搜索引擎机器人robot的名字。在“robots.txt”文件中,如果有多条 User-agent记录,说明有多个robot会受到该协议的约束。所以,“robots.txt”文件中至少要有一条User- agent记录。如果该项的值设为*(通配符),则该协议对任何搜索引擎机器人均有效。在“robots.txt”文件 中,“User-agent:*”这样的记录只能有一条。

3

Disallow:该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以 是部分的,任何以Disallow开头的URL均不会被robot访问到。

4

任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在 “/robots.txt”文件中,至少要有一条Disallow记录。如果“/robots.txt”是一个空文 件,则对于所有的搜索引擎robot,该网站都是开放的。

注意事项
1

一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

2

其实robots是为有特别情况的站长准备的,因为有些网站,有一些页面是站长不想被任何搜索引擎收录的,所以才有了这个robots文件。

推荐信息