36.ROBOTS文件和META ROBOTS

谷歌SEO

ROBOTS文件,位于网站根目录的文件(robots.txt),也称为机器人排除协议或标准,用于告知搜索引擎网站上的哪些网页要抓取,哪些页面不要抓取。META ROBOTS是一个元标签,可以单独写入到网页中,也是为搜索引擎提供指导读取网站网页的计算机程序。

不需要任何技术和经验即可充分利用robots.txt功能强大,你可以通过查看网站源码找到robots.txt。首先,让我们先看看robots.txt文件是什么为何如此重要。

什么是robots.txt

Robots.txt是网站管理员创建的文本文件,用于告诉网络机器人(通常是搜索引擎机器人)如何抓取其网站上的网页。robots.txt文件是机器人排除协议(REP)的一部分,该协议是一组Web标准,用于管理机器人如何抓取网络,访问和索引内容,以及将内容提供给用户。REP还包括诸如META ROBOTS之类的指令,以及关于搜索引擎应如何处理链接(例如“follow”或“nofollow”)的网页,子目录或站点范围的指令。

ROBOTS文件基本格式看起来像这样:

下面两个被认为是完整的robots.txt文件,尽管一个robots文件包含多行用户代理和指令(即,禁止,允许,爬行延迟等)。

下面这个例子在robots.txt文件中,每组用户代理指令显示为离散集,由换行符分隔:

robots文件-每组用户代理指令

robots.txt文件中每组用户代理指令显示为离散集由换行符分隔

在多个用户代理指令的robots.txt文件中,每个禁止或允许规则仅适用于在该特定行分隔符集中指定的用户代理。如果文件包含多个用户代理的规则,则搜索引擎程序将关注(并遵循指令)最具体的指令组,例子如下:

robots文件-多个用户代理指令的robots.txt文件中每个禁止或允许规则

robots文件-多个用户代理指令的robots.txt文件中每个禁止或允许规则仅适用于在该特定行分隔符集中指定的用户代理

robots文件的重要性

使用网站robots.txt几个重要原因:

  • 希望在搜索引擎中隐藏或阻止网站中的文件;
  • 使用广告时需要特别说明;
  • 希望网站遵循谷歌优化指南以提高SEO。

需要强调的是,一些网站可能觉得不需要robots.txt文件,因为他们不需要从公共视图中隐藏网站的敏感数据,允许Googlebot从内到外全面抓取整个网站,如果网站没有robots.txt文件,则默认搜索引擎可以访问全网站。

如果你正在摸不着头脑,为什么robots.txt会这么好奇,一定要理解这个文件内容的重要性:

  • 它控制搜索引擎如何抓取和网页交互;
  • 它是搜索引擎工作流程中的基本部分;
  • robots.txt使用不当可能会损害网站搜索排名;
  • 使用robots.txt是Google优化指南的一部分。

主要的搜索引擎和大多数信誉良好的小型搜索引擎都会阅读robots.txt文件的内容,并遵循网站robots.txt文件的指示来读取网站。优化robots.txt的方式取决于你网站上的内容。有各种各样的方法可以使用robots.txt。

robots文件-最常用的优化方法

robots文件最常见的使用方法是屏蔽搜索引擎,不要抓取不希望索引的网站区域,提供xml站点地图访问路径,robots文件放在网站根目录,以下为例。

第一种:屏蔽不想被搜索引擎编入索引的区域:

代码解释:

第一行是用户代理,*意思是允许所有搜索访问;

第二行是告诉搜索引擎不要抓取和收录/private文件夹。

第二种:指定googlebot搜索引擎不能够访问和收录/private文件夹

代码解释:

第一行是用户代理,意思是指定Googlebot搜索引擎;

第二行是告诉Googlebot搜索引擎不要抓取和收录/private文件夹。

第三种:网站屏蔽所有搜索引擎

代码解释:

第一行是用户代理,*意思是所有搜索引擎;

第二行是告诉搜索引擎不要抓取和收录网站所有的文件和文件夹。

上述三种情况注意到,如果在robots.txt中乱写一些东西,对网站伤害很大。Disallow:/*这个指令就是网站屏蔽所有搜索引擎。如果网站使用该指令搜索引擎会从索引中删除网站,所以一定要小心。

经典的robots.txt示例

在实际操作中最经典的robots.txt文件应包含以下内容:

代码解释:

第一行是用户代理,*意思是所有搜索引擎;

第二行是允许所有搜索引擎访问你的网站没有任何屏蔽;

第三行是指定网站地图位置以便搜索引擎更容易找到它。

测试和验证robots文件

虽然我们可以通过浏览器robots.txt网址来查看robots.txt的内容,但测试和验证它的最佳方法是通过Google Search Console的robots.txt测试程序。

  1. 登录你的Google Search Console帐户;
  2. 点击在抓取选项下找到的robots.txt测试工具;
  3. 单击“测试”按钮。

如果一切正常,“测试”按钮将变为绿色,按钮文字变为“已允许”。如果出现问题,将突出显示导致禁用行。

Robots文件测试工具

Robots文件测试工具

Robots文件SEO最佳实践

robots文件是一个不安全的文件系统,不是真正的文本请求提供给机器人,没有任何方法迫使他们遵守规则。因此,如果你的网站非常重要区域,robots.txt的disallow不能够帮你实现这一目标。

  • 不要用robot.txt屏蔽js和css文件和文件夹
  • 告诉搜索引擎如何找到网站地图指令sitemap:http://www.yourdomain.com/sitemap.xml

robots元标签

robots元标签基本格式看起来像这样:

四种用法:

  • Index = “请收录这个页面”
  • Follow =”请追踪此页面上的链接”
  • Noindex=”请不要将此页面编入索引”
  • Nofollow=”请不要追踪此页面上的链接”

所以不要太担心robot.txt文件或者robot元标签。除了使用该文件指定站点地图位置外,将在后面的课程中回到详细介绍问题。

在你离开之前

你不必花费太多时间配置或测试robots.txt,重要的是拥有一个并通过Google网站管理员工具测试你是否阻止搜索引擎抓取工具访问你的网站。请你在下面留言谈谈你对这节课看法-ROBOTS文件,请在下面给我发表评论,谢谢!

接近10年的互联网从业经验,精通Scrum敏捷软件开发的方法,从事互联网产品设计,开发,测试,运营,案例不少于20个,发现自己最喜欢的工作是做外贸营销,外贸SEO,特别喜欢谷歌优化。从2017年3月开始坚持在群161510483直播谷歌SEO和WEB前端开发技术,只要加进来坚持学习零基础也能够学会。

Last modified: 2018年10月9日

Previous Story

谷歌SEO

35.页面基础优化:页脚文本优化

页脚文本优化:就是在把网页最底部通常会看到关于我们,版权声明,隐私政策,免责声明等做好,这节课中将重点介绍页脚中关于我们文本优化,这是海量关键词排名的其中一个方法.

...

Next Story

谷歌SEO

37.HTML网站地图

HTML网站地图,网站访问者轻松浏览网站,它们是列表文本形式的网站导航,在页面上显示的锚文本链接到它引用的页面,网站访问者可以访问HTML站点地图通过搜索站点或浏览站点菜单来查找他们无法找到的主题.

...

发表评论