robots.txt简介

robots.txt 文件规定了搜索引擎抓取工具可以访问您网站上的哪些网址。 此文件主要用于避免您的网站收到过多请求;它并不是一种阻止 搜索引擎爬虫 抓取某个网页的机制。若想阻止 搜索引擎爬虫 访问某个网页,请使用 noindex 禁止将其编入索引,或使用密码保护该网页。

简单来说,就是告诉搜索引擎爬虫,哪些资源(URL)是它可以访问的,哪些是不可以访问的。

具体有以下作用:

(1)引导搜索引擎爬虫抓取指定内容或栏目。比如,有的网站部分内容,只有注册会员后,登陆会员功能才能看到更多内容。

(2)网站改版或者URL需要重写优化的时候屏蔽对搜索引擎不友好的链接。

(3)屏蔽死链接、404页面;

(4)屏蔽无内容页面、无价值页面;

(5)屏蔽重复页面,如搜索结果页、评论页面等;

(6)屏蔽任何不想收录页面;

(7)引导蜘蛛抓取网站地图。

网站设置robots.txt可以集权到网站重要页面,保护网站安全。

在创建或修改 robots.txt 文件之前,您应了解这种网址屏蔽方法的限制。根据您的目标和具体情况,您可能需要考虑采用其他机制来确保搜索引擎无法在网络上找到您的网址。

  • 并非所有搜索引擎爬虫都支持 robots.txt 指令。
    robots.txt 文件中的命令并不能强制规范抓取工具对网站采取的行为;是否遵循这些命令由抓取工具自行决定。搜索引擎爬虫都会遵循 robots.txt 文件中的命令,但其他抓取工具未必如此。因此,如果您想确保特定信息不会被网页抓取工具抓取,我们建议您采用其他屏蔽方法,例如用密码保护服务器上的隐私文件。
  • 不同的搜索引擎爬虫会以不同的方式解析语法。
    虽然正规的网页抓取工具会遵循 robots.txt 文件中的指令,但每种抓取工具可能会以不同的方式解析这些指令。您需要好好了解一下适用于不同网页抓取工具的正确语法,因为有些抓取工具可能会无法理解某些命令。
  • 如果其他网站上有链接指向被 robots.txt 文件屏蔽的网页,则此网页仍可能会被编入索引
    尽管 搜索引擎爬虫 不会抓取被 robots.txt 文件屏蔽的内容或将其编入索引,但如果网络上的其他位置有链接指向被禁止访问的网址,我们仍可能会找到该网址并将其编入索引。因此,相关网址和其他公开显示的信息(如相关页面链接中的定位文字)仍可能会出现在 搜索引擎 的搜索结果中。若要正确阻止您的网址出现在 搜索引擎 的搜索结果中,您应为服务器上的文件设置密码保护、使用 noindex 元标记或响应标头,或者彻底移除网页。
重要提示:结合使用多种抓取和索引编制指令可能会导致某些指令与其他指令冲突。了解如何合并使用抓取指令与索引编制及内容显示指令

写在最后

入门使用就这些,更高深的用法在实践中去发现吧。。。
THE END
分享
二维码
打赏
< <上一篇
下一篇>>