1、允许所有搜索引擎访问 User-agent: * Disallow: 或者 User-agent: * Allow: / 在这里大家要注意下,可以最直接的建一个空文件 “robots.txt”然后放到网站的根目录。
2、禁止所有搜索引擎访问 User-agent: * Disallow: / 或者 User-agent: * allow:
3、禁止所有搜索引擎访问网站中的几个部分,在这里我用a、b、c目录来代替 User-agent: * Disallow: /a/ Disallow: /b/ Disallow: /c/如果是允许,则是 Allow: /a/ Allow: /b/ Allow: /c/
4、禁止某个搜索引擎的访问,我用w来代替 User-agent: w Disallow: / 或 User-agent: w Disallow: /d/*.htm 在Disallow:后面加 /d/*.htm的意思是禁止访问/d/目录下的所有以”.htm”为后缀的URL,包含子目录。
5、只允许某个搜索引擎的访问,我用e来代替 User-agent: e Disallow: 在Disallow:后面不加任何东西,意思是仅允许e访问该网站。
6、使用”$”限制访问url User-agent: * Allow: .htm$ Disallow: / 意思是仅允许访问以”.htm”为后缀的URL
7、禁止访问网站中所有的动态页面 User-agent: * Disallow: /*?*
8、禁止搜索引擎F抓取网站上所有图片 User-agent: F Disallow: .jpg$ Disallow: .jpeg$ Disallow: .gif$ Disallow: .png$ Disallow: .bmp$ 意思是只允许引擎抓取网页,禁止抓取任何图片(严格来说,是禁止抓取jpg、jpeg、gif、png、bmp格式的图片。)
9、只允许搜索引擎E抓取网页和.gif格式图片 User-agent: E Allow: .gif$ Disallow: .jpg$ Disallow: .jpeg$ Disallow: .png$ Disallow: .bmp$ 意思是只允许抓取网页和gif格式图片,不允许抓取其他格式图片
绝大多数的搜索引擎机器人都遵守robots文件的规则,关于怎么写robots文件的方法,大致就是这些了。要提醒大家的是:robots.txt文件一定要写对,如果不太会写,还是要先了解再写,以免给网站的收录带来麻烦。