-
十月31日
-
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。
robots.txt对我们上海SEO进行网站优化中非常重要的两点,很多SEOER忽略了robot的作用。
不同的搜索引擎给他们自己的探测器(Robot)起不同的名字。谷歌:googlebot 百度:baiduspider MSN:MSNbot Yahoo:Slurp (yahoo家的这位比较特殊,没有带“姓”,并且用的是一个拟声词。Slurp,中文理解是机器人吃东西时发出的啧啧的声音)
User-agent:
定义搜索引擎语法disallow: 这是屏蔽语法
Allou: 这是允许语法
/ 代表根目录
baiduspider 百度蜘蛛
googlebut 谷歌机器人
例:屏蔽所有的搜索引擎
User-agent: *
disallow:例:只屏蔽百度蜘蛛
User-agent: Baiduspider
disallow: /如果同一目录下有的需要屏蔽有的需要开放robots.txt 怎么写?
这就需要先允许再屏蔽如/php/下面的文件要屏蔽 但里面有一个文件要允许/php/123.html
例
User-agent: *
Allou:/php/123.html
disallow:/php/
robots.txt 文件通配符:
结束符 $ 匹配行结束符
匹配符 * 可以代表0或者任何字符结束符用法
html$ /tmpa.html 这样子是匹配的
shtml$ /tmpa.html 这样子是不匹配的 前面多了一个S 意思是必须以shtml结束的才算是匹配的.robots.txt 屏蔽掉所有动态路径
User-agent:*
Disallow: /*?*robots.txt 屏蔽掉某一目录下所有图片
User-agent:*
Disallow: /moon/*.jpg
Disallow: /moon/*.jpeg
Disallow: /moon/*.gif
Disallow: /moon/*.png
Disallow: /moon/*.bmp如果我们的robots.txt没有明确写明哪个是要求屏蔽的。那么他就是默认为允许抓取的
由于时间的关系,上海SEO没办法在今天详细为大家解说robots.txt文件,等上海SEO不忙了再回头整理。现在一天保持更新一篇文章都有问题了。杯具啊 外链也没时间增加了,有朋友愿意给个友链的万分感谢。
原创文章请注明转载自上海SEO,本文地址:http://www.51seoer.com/seo/69.html
- 评论:(2)
- 引用通告
【已有2位网友发表了看法】点击这里获取该日志的TrackBack引用地址