小包网络专业网络危机公关服务商,涵盖侵权负面压制,企业危机应急处理等品牌维护,24小时微信热线:xianxin0001 。

义乌网站优化-Robots.txt如何影响搜索引擎的抓取

如果您担心网站的隐私,并且不想让搜索引擎抓取工具或漫游器抓取您网站的某些页面,则“ Robots.txt”是一站式解决方案,它将使抓取工具远离“禁止进入区域。

困惑?当每个人都希望自己的网站在搜索引擎中建立索引时,您可能想知道是否需要让搜索引擎机器人远离页面。当然。

义乌网站优化-阻止漫游器进入网站某些页面的原因

如果您的网站是电子商务网站,并且您将数据库存储在该网站上,那么您想将客户信息数据库发布给全世界吗?当然不!但是,如果您不采取任何预防措施来指示爬网程序不要对具有重要信息的页面进行爬网,那么搜索引擎蜘蛛将最终对其进行爬网,并将这些页面编入搜索引擎结果中。从那里,任何人都可以查看您的客户的详细信息并以不道德的方式使用它,以使您和您的客户处于法律上的噩梦中。

为避免此类灾难,您应该使用robots.txt。“ Robots.txt”的作用与俱乐部的保镖一样。就像保镖不允许某些客人进入俱乐部的私人区域一样,robots.txt也是如此。将其视为包含特定或所有爬网程序不应输入的目录的文件。

义乌网站优化-现在,出现了这个问题:robots.txt对您的网页安全吗?

搜索引擎搜寻器是由人工智能构建的,在访问网站的任何页面之前,这些机器人都会寻找robots.txt文件的存在,从而可以在其中看到被阻止访问的页面。

不必担心搜索引擎机器人违反了您网站的robots.txt文件。如果这样做,他们将面临严峻的法律后果,这就是为什么他们除了尊重您的robots.txt文件之外别无选择。

坏消息是,有一些恶意垃圾邮件发送者也利用机器人来爬网网站的“私人”页面,您几乎无法做任何事情。因此,除robots.txt外,强烈建议使用防火墙,加密方法,密码保护和其他安全服务。

义乌网站优化-进出“ robots.txt”!

并非每个人都需要robots.txt。除非您在网站上有一些严肃的内容(不想让任何人浏览),否则就没有必要上载robots.txt文件,甚至不需要上传一个空文件。

Robots.txt文件包含一组针对搜索引擎爬网程序的说明,如不应被爬网的文件和目录一样。这里值得注意的一点是,此文件应安装在网站的最高目录中,因为爬网程序会在您网站的根域而不是任何子域中搜索robot.txt文件。

例如,http://www.abc.com/robots.txt是有效位置,但是http://www.abc.com/mysite/robots.txt无效。

义乌网站优化-如何创建robots.txt文件?

robots.txt文件有两个重要部分:

义乌网站优化-Robots.txt如何影响搜索引擎的抓取

用户代理:它象征着搜索引擎机器人。您可以指示所有搜索引擎机器人或特定机器人。

禁止:此字段允许或禁止搜索引擎抓取特定文件或目录。

如果您不希望所有搜索引擎都对目录进行爬网,请在“用户代理”部分使用*,然后在目录名后加上正斜杠:

  1. 用户代理: *

禁止:/ directoryA /

如果您特别希望Bingbot不要爬网目录,请在目录名称后加上正斜杠:

  1. 用户代理:Bingbot

不允许:/目录A /

如果您不希望所有搜索引擎都爬行整个网站,请执行以下操作:

  1. 用户代理: *

不允许: /

如果要限制搜索引擎机器人抓取页面,请执行以下操作:

  1. 用户代理: *

禁止:/abc_file.html

Google使用了许多机器人,例如Googlebot-Image和Googlebot-Mobile,但是适用于Googlebot的条件将适用于所有机器人,但情况并非如此。您也可以为特定的漫游器设置特定的规则。

要阻止来自Google图片的图片,请使用以下命令:

  1. 用户代理:Googlebot-Image

禁止:/ images / watch.jpg

要从Googlebot图片中删除所有图片,请使用:

  1. 用户代理:Googlebot-Image

不允许: /

如果要阻止特定文件类型,例如-.png,则:

  1. 用户代理:Googlebot

禁止:/。png

如果您已在robots.txt中指定了某些网页,则可以确定它们不会被搜索引擎漫游器抓取。但是,如果这些页面的URL在您网站的其他页面中找到,则这些页面也将被索引的可能性很小。

为避免此类麻烦,建议您使用“机器人元标记”,以限制对特定页面的任何访问。让我们挖掘有关机器人元标记的少量信息,以更好地理解它。

机器人元标记:深入

‘ Index’和’ noindex’是Meta标记的两个主要说明,因为它使您可以逐页控制索引。如果您不希望搜索引擎机器人将特定页面编入索引,请在页面的顶部放置以下Meta标记:

<元名称=“机器人” content =“ noindex”>

如果您不希望特定的漫游器为页面建立索引,例如Googlebot,则:

<meta name =“ Googlebot” content =“ noindex”>

搜索引擎搜寻器将仅搜寻允许访问的页面。但是,如果他们在其他页面上找到链接,则他们可能不会忽略那些URL并最终将这些页面编入索引。僵尸程序没有必要对使用Meta标签进行“索引”的页面编制索引。但是,可以肯定的是,搜索引擎机器人会突然删除被要求“ noindex”的页面,即使它们已链接到其他页面也是如此。

请记住,如果您在页面中包含了“ noindex”元标记,但是该页面未包含在robots.txt中,则搜索引擎漫游器将抓取该页面,并且当它遇到“ noindex”标记时,它将被删除。 。

尽管添加了“ noindex”元标记,但页面仍可能出现在搜索结果中。不必惊慌-原因可能是:由于您已添加Meta标签,因此搜寻器没有出现回爬行您的页面的迹象。下次爬网程序爬网您的页面时,肯定会删除它。

为了加快索引删除过程,您还可以使用Google的网址删除工具。

义乌网站优化-最后一点:通过Google网站站长工具测试robots.txt文件

建议您在网站根域上载robots.txt文件之前,先使用“ 测试robots.txt”工具执行此测试。该测试会像读取Googlebot一样读取网站,从而为您提供实际的结果。

进行此测试是一个加号,因为您会知道robots.txt文件是否意外阻止或允许页面。因此,您可以解决问题(如果发现)。让我们看看如何使用该工具:

¨在网站站长工具主页上单击要检查的网站。

¨在“健康”部分下,单击“阻止的URL”。

¨默认情况下,必须选择“测试robots.txt”标签。如果不是,请单击选项卡。

¨您需要复制robots.txt文件的内容并将其粘贴到第一个框中。

¨将需要测试的网站复制并粘贴到“ URL”框中

¨在“用户代理”框中列出用户代理。

请记住,您无法在该工具内进行任何更改,但需要编辑robots.txt文件的内容。

版权声明:本文来自网络,版权归原发布者所有,本网不为内容负任何责任,如有不妥之处,请联系小包网络,转载请保留出处!本文地址:https://www.seo023.org/jishu/2406.html