您的位置 首页 > 数码极客

如何查看robots.txt


robots协议(也称爬虫协议、机器人协议等),“全称是网络爬虫扫除规范“(RobotsExclusionProtocol),robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robo是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robo,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robo文件是一个文本文件,robo是一个协议,而不是一个命令。robo是搜索引擎中访问网站的时候要查看的第一个文件。robo文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robo,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robo文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robo文件。

Robot.txt的效果?

能够让蜘蛛更高效的匍匐网站

能够阻挠蜘蛛匍匐动态页面,从而处理重复录入的问题

能够削减蜘蛛匍匐无效页面,节约服务器带宽

能够屏蔽搜索引擎屏蔽一些隐私页面或许临时页面

怎么创立robo文件呢?

右击桌面——新建文本文档——重命名为robo(一切文件有必要小写)——编写规矩——用FTP把文件上(放到根目录下)传到空间

创立robo需求留意的知识点:

1、有必要是txt结束的纯文本文件

2、文件名一切字母有必要是小写

3、文件有必要要放在根目录下

4、文件内的冒号有必要是英文半角状态下

robo文件放在哪里?

robo文件应该放在网站根目录下。举例来说,当robots访问一个网站时,首先会检查该网站中是否存在这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

"robo"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL,orNL作为结束符),每一条记录的格式如下所示:

"<field>:<optionalspace><value><optionalspace>"。

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

User-agent:

该项的值用于描述搜索引擎robot的名字,在"robo"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robo"文件中,"User-agent:*"这样的记录只能有一条。

Disallow:

该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对和/hel都不允许搜索引擎访问,而"Disallow:/help/"则允许robot访问,而不能访问/hel。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robo"文件中,至少要有一条Disallow记录。如果"/robo"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow:

该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如"Allow:/hibaidu"允许robot访问、、/hibaidu。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

使用"*"和"$":

robots支持使用通配符"*"和"$"来模糊匹配url:

"$"匹配行结束符。

"*"匹配0或多个任意字符。

Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的。搜索引擎的原理是通过一种爬虫spider程序,自动搜集互联网上的网页并获取相关信息。而鉴于网络安全与隐私的考虑,每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许。搜索引擎则会按照Robots协议给予的权限进行抓取。

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作,旨在以深度学习研究为目的传播信息知识,内容观点与本网站无关,反馈举报请
2.仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告,请读者放心使用!

“如何查看robots.txt”边界阅读