存储在您网站根目录中的robots.txt文件会告诉搜索引擎蜘蛛等网络漫游器允许抓取哪些目录和文件。使用robots.txt文件很容易,但有些事情你应该记住:
- Blackhat网络漫游器将忽略您的robots.txt文件。最常见的类型是恶意软件机器人和寻找收集电子邮件地址的机器人。
- 一些新的程序员会编写忽略robots.txt文件的机器人。这通常是错误的。
- 任何人都可以看到您的robots.txt文件。它们总是被称为robots.txt,并且始终存储在网站的根目录中。
- 最后,如果有人链接到robots.txt文件从robots.txt文件未排除的页面中排除的文件或目录,搜索引擎仍可以找到它。
不要使用robots.txt文件来隐藏任何重要的内容。相反,您应该将重要信息放在安全密码后面,或者完全不让它离开网络。
如何使用这些示例文件
从最接近您要执行的操作的示例中复制文本,然后将其粘贴到robots.txt文件中。更改机械手,目录和文件名以匹配首选配置。
两个基本的Robots.txt文件
用户代理: *不允许: / 这个文件说任何机器人( 用户代理: *访问它应该忽略网站上的每一页( 不允许: /). 用户代理: *不允许: 这个文件说任何机器人( 用户代理: *访问它是允许查看网站上的每个页面( 不允许:). 您也可以将robots.txt文件留空或在您的网站上没有。 用户代理: *禁止:/ cgi-bin /禁止:/ temp / 这个文件说任何机器人( 用户代理: *访问它应该忽略目录/ cgi-bin /和/ temp /( 禁止:/ cgi-bin / Disallow:/ temp /). 用户代理: *禁止:/jenns-stuff.htm禁止:/private.php 这个文件说任何机器人( 用户代理: *)访问它应该忽略文件/jenns-stuff.htm和/private.php( 禁止:/jenns-stuff.htm禁止:/private.php). 用户代理:Lycos / x.x不允许: / 这个文件说Lycos机器人( 用户代理:Lycos / x.x)不允许访问网站上的任何地方( 用户代理: *不允许: /用户代理:Googlebot不允许: 该文件首先禁止像我们上面所做的所有机器人,然后明确地让Googlebot( 用户代理:Googlebot)可以访问一切( 虽然最好使用非常具有包容性的用户代理行,例如User-agent:*,但您可以根据自己的喜好进行定制。请记住,机器人按顺序读取文件。因此,如果第一行显示所有机器人都被阻止了所有内容,然后在文件中说明所有机器人都可以访问所有内容,则机器人将可以访问所有内容。 如果您不确定自己是否正确编写了robots.txt文件,可以使用Google的网站站长工具检查robots.txt文件或编写新文件。 从机器人中保护特定目录
保护机器人的特定页面
防止特定机器人访问您的站点
仅允许一个特定的机器人访问
组合多行以获得您想要的排除