robots协议是什么,robots.txt的写法

SEO名词术语 阿水SEO 浏览


什么是robots协议?
 
spider在访问一个网站时,会首先检查该网站的根域下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。也就是说,通过这个文件中的内容,蜘蛛会知道那些内容可以抓取,哪些内容不能抓取。
 
robots.txt文件放在哪里?
 
robots.txt文件应该放置在网站根目录下。
蜘蛛来到网站后,首先会检查该网站中是否存在http://www.xxx.com/robots.txt这个文件,如果存在,将会按照robots.txt中的规则进行抓取。
 
robots.txt格式
 
User-agent:该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。
 
Disallow: 该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被蜘蛛访问到。
 
allow:相反的,该项的值用于描述希望被蜘蛛访问到的URL。
 
"*"和"$"的含义
 
Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
"$" 匹配行结束符。
"*" 匹配0或多个任意字符。
 
一些robots.txt基本的用法: 
 
1、禁止所有搜索引擎访问网站的任何部分: 
User-agent: * 
Disallow: /
 
2、允许所有的robot访问 
User-agent: * 
Disallow: 
或者也可以建一个空文件robots.txt
 
3、禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录) 
User-agent: * 
Disallow: /cgi-bin/ 
Disallow: /tmp/ 
Disallow: /private/
 
4、禁止某个搜索引擎的访问(下例中的BadBot) 
User-agent: BadBot 
Disallow: /
 
5、只允许某个搜索引擎的访问(下例中的WebCrawler) 
User-agent: WebCrawler 
Disallow: 
User-agent: * 
Disallow: /

*相关阅读*用nofollow标签限制蜘蛛抓取
robots协议是什么,robots.txt的写法


欢迎加入SEO新手学习交流群,进群免费领取下载SEO学习大礼包。每天为三位朋友免费分析网站以及SEO诊断 SEO新手学习交流群  群号:589953976


当前网址:http://www.waterseo.com/seojc/seomc/2017/0310/48.html

你可能喜欢的: