Skip to main content

您的网站的示例robots.txt文件

98 Robots txt的讲解 (六月 2025)

98 Robots txt的讲解 (六月 2025)
Anonim

存储在您网站根目录中的robots.txt文件会告诉搜索引擎蜘蛛等网络漫游器允许抓取哪些目录和文件。使用robots.txt文件很容易,但有些事情你应该记住:

  1. Blackhat网络漫游器将忽略您的robots.txt文件。最常见的类型是恶意软件机器人和寻找收集电子邮件地址的机器人。
  2. 一些新的程序员会编写忽略robots.txt文件的机器人。这通常是错误的。
  3. 任何人都可以看到您的robots.txt文件。它们总是被称为robots.txt,并且始终存储在网站的根目录中。
  4. 最后,如果有人链接到robots.txt文件从robots.txt文件未排除的页面中排除的文件或目录,搜索引擎仍可以找到它。

不要使用robots.txt文件来隐藏任何重要的内容。相反,您应该将重要信息放在安全密码后面,或者完全不让它离开网络。

如何使用这些示例文件

从最接近您要执行的操作的示例中复制文本,然后将其粘贴到robots.txt文件中。更改机械手,目录和文件名以匹配首选配置。

两个基本的Robots.txt文件

用户代理: *不允许: /

这个文件说任何机器人(

用户代理: *访问它应该忽略网站上的每一页(

不允许: /).

用户代理: *不允许:

这个文件说任何机器人(

用户代理: *访问它是允许查看网站上的每个页面(

不允许:).

您也可以将robots.txt文件留空或在您的网站上没有。

从机器人中保护特定目录

用户代理: *禁止:/ cgi-bin /禁止:/ temp /

这个文件说任何机器人(

用户代理: *访问它应该忽略目录/ cgi-bin /和/ temp /(

禁止:/ cgi-bin / Disallow:/ temp /).

保护机器人的特定页面

用户代理: *禁止:/jenns-stuff.htm禁止:/private.php

这个文件说任何机器人(

用户代理: *)访问它应该忽略文件/jenns-stuff.htm和/private.php(

禁止:/jenns-stuff.htm禁止:/private.php).

防止特定机器​​人访问您的站点

用户代理:Lycos / x.x不允许: /

这个文件说Lycos机器人(

用户代理:Lycos / x.x)不允许访问网站上的任何地方(

不允许: /).

仅允许一个特定的机器人访问

用户代理: *不允许: /用户代理:Googlebot不允许:

该文件首先禁止像我们上面所做的所有机器人,然后明确地让Googlebot(

用户代理:Googlebot)可以访问一切(

不允许:).

组合多行以获得您想要的排除

虽然最好使用非常具有包容性的用户代理行,例如User-agent:*,但您可以根据自己的喜好进行定制。请记住,机器人按顺序读取文件。因此,如果第一行显示所有机器人都被阻止了所有内容,然后在文件中说明所有机器人都可以访问所有内容,则机器人将可以访问所有内容。

如果您不确定自己是否正确编写了robots.txt文件,可以使用Google的网站站长工具检查robots.txt文件或编写新文件。