不管是什么站点,我们都会发现都存在robots这个文件,这对于优化是否有帮助我们不得而知,但是不管是大型网站还是小型网站,都会让使用一些命令封闭蜘蛛不让抓取某个栏目,这对网站优化的帮助体现在哪些方面呢?下面我们就来了解下。
确保您没有屏蔽要抓取的网站的任何内容或部分。
将不会遵循robots.txt阻止的网页上的链接。这意味着1.)除非它们也与其他搜索引擎可访问的页面链接(即未通过robots.txt,元机器人或其他方式阻止的页面),否则链接的资源将不会被抓取,也不会被编入索引。2.)没有链接资产可以从被阻止的页面传递到链接目的地。如果您有要将权益传递到的页面,请使用robots.txt以外的其他阻止机制。
不要使用robots.txt来防止敏感数据(如私人用户信息)出现在SERP结果中。由于其他页面可能直接链接到包含私人信息的页面(从而绕过根域或主页上的robots.txt指令),因此它仍可能被编入索引。如果要阻止搜索结果中的页面,请使用其他方法,如密码保护或noindex 元指令。
一些搜索引擎有多个用户代理。例如,百度使用关键词进行自然搜索,使用关键词进行图片搜索。来自同一搜索引擎的大多数用户代理遵循相同的规则,因此无需为每个搜索引擎的多个抓取工具指定指令,但有能力这样做可以让您微调网站内容的抓取方式。
搜索引擎将缓存robots.txt内容,但通常每天至少更新一次缓存内容。如果您更改文件并希望更快地更新文件,则可以将您的robots.txt网址提交给百度资源平台。