有图小站

关注电脑网络,记录健康生活。有图小站,价值分享。

当前位置: 首页 > 网络 > robots.txt用法

robots.txt用法

我们在谈论删除网页搜索记录的时候提到过使用robots.txt过滤一些网站的不良影响,从而达到删除在搜索引擎中综合评估比较优良的做法。其实robots.txt文件的更大用处在于通过书写访问规则,可以避免很多重复页面的索引,突出重点页面的作用。

那么robots.txt到底如何书写呢?纵观网上的很多关于robots.txt文件的介绍和书写方法,繁而多,其实对于我们普通用户来说,没有必要一一掌握,主要就是过滤一些特定的页面、目录的拒绝访问规则。

例如:

User-agent: *
Sitemap:http://域名/sitemap.xml
Allow: /
Disallow: /文件1.html
Disallow: /目录名1/
Disallow: /目录名2/文件1.html

简单介绍一下上面常用的robots.txt规则。

User-agent语句:是指下面的规则针对谁而设定,如果是所有的搜索引擎,一般用*;如果只是针对某一个搜索引擎的自动机器人,写上它的名字即可。

常用的机器人名字:
Googlebot:Google的网页抓取机器人;
Googlebot-Mobile:Google对于wap页面的自动机器人(主要对wap站);
Googlebot-Image:Google的图片索引机器人(主要对图片站,此机器人对于不想google抓取图片的站来说有用);

Baiduspider:百度蜘蛛

Yahoo Slurp:雅虎爬虫

其他还有很多网页抓取机器人,不过基本不用考虑了。

sitemap语句:这一语句主要是针对google,不过据说百度蜘蛛也读取sitemap文件,sitemap主要是告诉搜索引擎机器人你的站里有什么页面,虽然随着时间推移,搜索引擎能够几乎全部读取你的每一个在交互连接中的页面(非无链接指向的单独页面),但,sitemap便于机器人快速抓取你的页面。作为替代,如果在robots.txt文件中没有这条语句,你可以在网站的首页某一位置添加一个指向sitemap的链接也可以。

Allow语句:allow是允许读取什么页面。一般情况下和Disallow拒绝读取命令成相反的交错。如默认是允许读取所有即 Allow: / ,那么你可以在后面的语句中将不允许的文件和目录罗列出来。相反,如果你的设定是 Disallow: / 意思便是拒绝所有,后面你要跟上allow 语句,即允许的文件和目录。

需要特别注意的是默认Allow语句后面需要有一个斜杠 / 。如果没有这个斜杠,意思恰恰相反,如 Allow: 是允许空,即没有允许的。

Disallow语句:拒绝读取什么页面。理解和用法正好和allow语句相反。如使用 Disallow: / 即是拒绝所有,而Disallow: 是拒绝空,即允许所有页面和目录被搜索引擎抓取。

robots.txt书写方法举例

例如:

Disallow: /help  对/help.html 和/help/index.html都不允许搜索引擎访问;

Disallow: /help/  则允许robot访问/help.html,而不能访问/help/index.html;

*指代任意字符和目录,如:

Disallow: /help*  以help开头的任何文件和文件夹都不可被访问,如 /help.html 不能被访问, /helpus.html不能不访问,/help/index.html 不能被访问,/helpus/index.html也不能被访问。

$指代结尾字符,如:

Disallow: asp$ 则所有的以asp结束的文件都不可以被索引。

此外,还有Robots META标签,百度和google都可以识别,不过对于使用cms建站的大多数人来说,更快捷的方法仍然是在robots.txt上书写规则,要容易的多,若非专业的大型项目网站管理员不用掌握。

对于网站而言,如果是动态网站,robots.txt的用处不是特别大。例如,论坛或者交互型社区,动态页面来自搜索引擎的流量比较少,如果没有静态化的副本,robots.txt文件的规则很难书写,而对于能够静态化的网站系统来说,书写robots.txt确实很有用。

最后需要注意,robots.txt文件名必须是小写,而且放在网站根目录,并且要以ansi的编码保存,使用utf-8或者其他unicode编码是不行的,至少Google不识别。 

本文是 有图小站 原创,原地址 http://www.utosee.com/post/robots.txt.html 转载请保留。





上一篇:如何使用西联汇款收adsense汇款图解
下一篇:录音软件下载




版权所有 有图小站 关注 电脑 网络 软件 健康 豫ICP备12023314号