关于我们 RRS sitemaps 网站地图

首页 > SEO基础 > SEO入门 > 正文

SEM论坛

什么是robots.txt

2012-09-12 21:18:12 |  评论:0  |  点击:  |  SEM论坛

robots.txt概述

robots.txt是放置在网站根目录中的.TXT文件,是搜索引擎蜘蛛程序默认访问网站第一要访问的文件,robots.txt将告诉搜索引擎蜘蛛程序网站哪些页面时可以访问,哪些不可以。

robots.txt语法规则

robots.txt文件名必须全部小写

语法:最简单的robots.txt文件使用两条规则:

User-Agent:适用下列规则的漫游器

Disallow:要拦截的网页

robots.txt使用技巧

1.每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。

2.网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow:/cgi-bin”是个好主意,这样能够避免将所有程序文件被搜索引擎蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

3.如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。

4.robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:

Sitemap:http://www.***.com/sitemap.xml

目前对此表示支持的搜索引擎公司有Google,Yahoo,AskandMSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。

5.合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。

robots.txt文件用法举例

例1.禁止所有搜索引擎访问网站的任何部分

User-agent:*

Disallow:/

例2.允许所有的robot访问

(或者也可以建一个空文件"/robots.txt")User-agent:*

Disallow:

或者

User-agent:*

Allow:/

例3.仅禁止Baiduspider访问您的网站User-agent:Baiduspider

Disallow:/

例4.仅允许Baiduspider访问您的网站User-agent:Baiduspider

Disallow:

User-agent:*

Disallow:/

例5.禁止spider访问特定目录

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不

能写成"Disallow:/cgi-bin//tmp/"。User-agent:*

Disallow:/cgi-bin/

Disallow:/tmp/

Disallow:/~joe/

例6.允许访问特定目录中的部分urlUser-agent:*

Allow:/cgi-bin/see

Allow:/tmp/hi

Allow:/~joe/look

Disallow:/cgi-bin/

Disallow:/tmp/

Disallow:/~joe/

例7.使用"*"限制访问url

禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。User-agent:*

Disallow:/cgi-bin/*.htm

例8.使用"$"限制访问url

仅允许访问以".htm"为后缀的URL。User-agent:*

Allow:.htm$

Disallow:/

例9.禁止访问网站中所有的动态页面User-agent:*

Disallow:/*?*

例10.禁止Baiduspider抓取网站上所有图片

仅允许抓取网页,禁止抓取任何图片。User-agent:Baiduspider

Disallow:.jpg$

Disallow:.jpeg$

Disallow:.gif$

Disallow:.png$

Disallow:.bmp$

例11.仅允许Baiduspider抓取网页和.gif格式图片

允许抓取网页和gif格式图片,不允许抓取其他格式图片User-agent:Baiduspider

Allow:.gif$

Disallow:.jpg$

Disallow:.jpeg$

Disallow:.png$

Disallow:.bmp$

例12.仅禁止Baiduspider抓取.jpg格式图片User-agent:Baiduspider

Disallow:.jpg$

robots.txt常用的搜索引擎类型

google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler

关键字:什么是robots.txt

本周点击排行

SEM论坛