定义:
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots协议的原则:
Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

robots协议的功能:
除去robots建立的原则给我们带来的隐私保护的相关益处,协议还具备下列好处:
1、可以屏蔽一些网站中比较大的文件,如:图片、音乐、视频等,节省服务器带宽;
2、可以屏蔽站点的一些死链接,方便搜索引擎抓取网站内容;
3、可以屏蔽一些SEO不规范的网页;
4、设置网站地图连接,方便引导蜘蛛爬取页面。
5、引导蜘蛛抓取,调整抓取压力;

robots的写法:
具体而言,包括两个方面:
1、robots.txt
robots.txt是搜索引擎访问一个网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。
robots.txt必须放在网站根目录下,且文件名要小写。

2、<META> tag
网页内容中添加的名为robots的meta标 签,index、follow、nofollow等指令。

robots的案例:
http://www.douban.com/robots.txt

User-agent: * 开始配置 所有引擎 有效
Disallow: /subject_search 禁止所有引擎抓取网站subject_search目录(包含子目录) 有效
Disallow: /amazon_search 禁止所有引擎抓取网站amazon_search目录(包含子目录) 有效
Disallow: /search 禁止所有引擎抓取网站search目录(包含子目录) 有效
Disallow: /group/search 禁止所有引擎抓取网站group目录下的search目录(包含子目录) 有效
Disallow: /forum/ 禁止所有引擎抓取网站forum目录 有效
Disallow: /new_subject 禁止所有引擎抓取网站new_subject目录(包含子目录) 有效
Disallow: /service/iframe 禁止所有引擎抓取网站service目录下的iframe目录(包含子目录) 有效
Disallow: /j/ 禁止所有引擎抓取网站j目录 有效
Disallow: /link2/ 禁止所有引擎抓取网站link2目录 有效
Disallow: /recommend/ 禁止所有引擎抓取网站recommend目录 有效
Disallow: /trailer/ 禁止所有引擎抓取网站trailer目录 有效
Sitemap: http://www.douban.com/sitemap_index.xml Sitemap地址:http://www.douban.com/sitemap_index.xml 有效
Sitemap: http://www.douban.com/sitemap_updated_index.xml Sitemap地址:http://www.douban.com/sitemap_updated_index.xml 有效
User-agent: Slurp 开始配置 [Slurp] 有效
User-agent: Sosospider 开始配置 搜搜 有效
Crawl-delay: 5 搜搜每次抓取时延迟5秒 有效
Visit-time: 0100-1300 允许搜搜在每天的01:00-13:00抓取 有效
Request-rate: 40/1m 0100 – 0759 允许搜搜在每天的01:00-07:59以每1分钟40次的频率抓取 有效
Request-rate: 12/1m 0800 – 1300 允许搜搜在每天的08:00-13:00以每1分钟12次的频率抓取

robots检查工具推荐:
http://seo.seowhy.com/robot/