您的位置 首页 > 数码极客

如何查看robots.txt

当一个搜索蜘蛛访问网站时,首先检查该站点根目录下是否存在robo,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有,没有被口令保护的页面。

01-robots文件

(1)robo是搜索引擎访问网站时查看的第一个文件,它告诉蜘蛛程序所在服务器什么文件是可以被查看。

(2)若存在robo文件,搜索机器人会按照该文件中的内容来确定访问的范围;若该文件不存在,所有的搜索蜘蛛将能够访问网站上所有页面。

(3)robo必须放在一个站点的根目录下,且文件名必须全部小写(真实的服务器就使用ftp上传)。

(4)建议就算允许所抓取所有内容,也要建一个空的robo文件。

(5)可将sitemap网站地图放置robo文件(地图写法:)。

Robo的语法写作(*号代表通配符,disallow=/*?*/表示不能访问带有?的网址,即动态网址)

A、允许所有搜索引擎访问网站所有内容

User-agent: *

Disallow:

B、禁止所有搜索引擎访问网站所有内容

User-agent: *

Disallow: /

C、只允许百度搜索引擎抓取

User-agent: Baiduspider

Disallow: /

D、如果我们禁止除百度外的一切搜索引擎索引

User-agent: Baiduspider

Disallow:

E、禁止访问某个目录,比如images

robo写法如下:

User-agent: *

Disallow: /images/

02-mate robo文件

(1)mate robots标签是页面head部分mate标签的一种,用于指令搜索引擎禁止索引本页内容。

(2)语法:禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。

<meta name="robots" content="noindex,nofollow">

(3)百度目前只支持nofollow和noarchive。

noindex:告诉蜘蛛不要索引本页面。

nofollow:告诉蜘蛛不要跟踪本页面上的链接(该页面所有链接)。

nosnippet:告诉搜索引擎不要在搜索结果中显示说明。

noarchive:告诉搜索引擎不要显示快照。

noodp:告诉搜索引擎不要使用开放目录中的标题和说明。

03-nofollow的使用

(1)nofollow代码型式: <a href:''http:;' rel="nofollow">这里是锚文字</a>

(2)链接的nofollow属性只适用于本链接(单个指定的链接),而mate robots标签的nofollow指的是页面所有链接。

(3)nofollow最初目的是减少垃圾链接对搜索引擎排名的影响,搜索引擎看到这个标签就不会跟踪爬行链接,也不传递链接权重和锚文字。

了解robots、mate robots、nofollow的功能,更好的保护和展现网站内容。

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作,旨在以深度学习研究为目的传播信息知识,内容观点与本网站无关,反馈举报请
2.仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告,请读者放心使用!

“如何查看robots.txt”边界阅读