robot[编辑]
一、robot的定义
Robot英文直译是机器人,在搜索引擎优化SEO中,我们经常翻译为:探测器。
有时,你会碰到crawler(爬行器),spider(蜘蛛),都是探测器之一,只是叫法不同。
二、SEO中常说的这个探测器(Robot)是什么?
搜索引擎用来抓取网页的工具。它是一个软件或者说一系列自动程序(显然,不是一部机器)。
不同的搜索引擎给他们自己的探测器(Robot)起不同的名字。
谷歌:googlebot
百度:baiduspider
MSN:MSNbot
Yahoo:Slurp (yahoo家的这位比较特殊,没有带“姓”,并且用的是一个拟声词。Slurp,中文理解是机器人吃东西时发出的啧啧的声音)
关于Robot,需要关心的主要是Robots.txt,以及网站日志中包含的以上几个名字。
三、Robot基本语法
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
User-agent:描述搜索引擎robot的名字
即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效 可用通配符 *表示全部
Disallow: 描述不希望被访问的一组URL
设定禁止访问的部分,可以用完整url , 也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型
Allow: 描述希望被访问的一组URL
设定允许访问的部分,不过因为默认是全部允许的,这个语法通常是配合disallow使用的,用它来完成 如“除了xxx.html该目录下全部不能访问”这样的设定。 要注意的是allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。
关于通配符:"$" 匹配行结束符;"*"匹配0或多个任意字符。
网络营销词典内容均由网友提供,仅供参考。如发现词条内容有问题,请发邮件至info # wm23.com。