我们在谈论删除网页搜索记录的时候提到过使用robots.txt过滤一些网站的不良影响,从而达到删除在搜索引擎中综合评估比较优良的做法。其实robots.txt文件的更大用处在于通过书写访问规则,可以避免很多重复页面的索引,突出重点页面的作用。
那么robots.txt到底如何书写呢?纵观网上的很多关于robots.txt文件的介绍和书写方法,繁而多,其实对于我们普通用户来说,没有必要一一掌握,主要就是过滤一些特定的页面、目录的拒绝访问规则。
例如:
User-agent: *
Sitemap:http://域名/sitemap.xml
Allow: /
Disallow: /文件1.html
Disallow: /目录名1/
Disallow: /目录名2/文件1.html
简单介绍一下上面常用的robots.txt规则。
User-agent语句:是指下面的规则针对谁而设定,如果是所有的搜索引擎,一般用*;如果只是针对某一个搜索引擎的自动机器人,写上它的名字即可。
常用的机器人名字:
Googlebot:Google的网页抓取机器人;
Googlebot-Mobile:Google对于wap页面的自动机器人(主要对wap站);
Googlebot-Image:Google的图片索引机器人(主要对图片站,此机器人对于不想google抓取图片的站来说有用);
Baiduspider:百度蜘蛛
Yahoo Slurp:雅虎爬虫
其他还有很多网页抓取机器人,不过基本不用考虑了。
sitemap语句:这一语句主要是针对google,不过据说百度蜘蛛也读取sitemap文件,sitemap主要是告诉搜索引擎机器人你的站里有什么页面,虽然随着时间推移,搜索引擎能够几乎全部读取你的每一个在交互连接中的页面(非无链接指向的单独页面),但,sitemap便于机器人快速抓取你的页面。作为替代,如果在robots.txt文件中没有这条语句,你可以在网站的首页某一位置添加一个指向sitemap的链接也可以。
Allow语句:allow是允许读取什么页面。一般情况下和Disallow拒绝读取命令成相反的交错。如默认是允许读取所有即 Allow: / ,那么你可以在后面的语句中将不允许的文件和目录罗列出来。相反,如果你的设定是 Disallow: / 意思便是拒绝所有,后面你要跟上allow 语句,即允许的文件和目录。
需要特别注意的是默认Allow语句后面需要有一个斜杠 / 。如果没有这个斜杠,意思恰恰相反,如 Allow: 是允许空,即没有允许的。
Disallow语句:拒绝读取什么页面。理解和用法正好和allow语句相反。如使用 Disallow: / 即是拒绝所有,而Disallow: 是拒绝空,即没有拒绝的页面和目录。
robots.txt书写方法举例:
例如:
Disallow: /help 对/help.html 和/help/index.html都不允许搜索引擎访问;
Disallow: /help/ 则允许robot访问/help.html,而不能访问/help/index.html;
*指代任意字符和目录,如:
Disallow: /help* 以help开头的任何文件和文件夹都不可被访问,如 /help.html 不能被访问, /helpus.html不能不访问,/help/index.html 不能被访问,/helpus/index.html也不能被访问。
$指代结尾字符,如:
Disallow: asp$ 则所有的以asp结束的文件都不可以被索引。
此外,还有Robots META标签,百度和google都可以识别,不过对于使用cms建站的大多数人来说,更快捷的方法仍然是在robots.txt上书写规则,要容易的多,若非专业的大型项目网站管理员不用掌握。
对于网站而言,如果是动态网站,robots.txt的用处不是特别大。例如,论坛或者交互型社区,动态页面来自搜索引擎的流量比较少,如果没有静态化的副本,robots.txt文件的规则很难书写,而对于能够静态化的网站系统来说,书写robots.txt确实很有用。
最后需要注意,robots.txt文件名必须是小写,而且放在网站根目录。
本文是 有图 原创,原地址为 http://www.utosee.com/post/robots.txt.html分类:网络技术 关键字:搜索引擎
上一篇:如何删除网站记录 | 下一篇:谷歌退出中国事件
搜索关于 robots.txt用法 的更多内容
