代码之家  ›  专栏  ›  技术社区  ›  systempuntoout

如何禁止使用robots.txt访问不带参数的url

  •  0
  • systempuntoout  · 技术社区  · 14 年前

    http://www.example.com/export

    允许使用这种url:

    http://www.example.com/export?foo=value1

    蜘蛛机器人在叫 /export 没有查询字符串会在我的日志中导致很多错误。
    有没有办法在robots.txt上管理这个过滤器?

    1 回复  |  直到 14 年前
        1
  •  1
  •   Pekka    14 年前

    我假设你有问题与机器人点击第一个网址在你的例子。

    正如评论中所说,这可能是不可能的,因为 http://www.example.com/export 是资源的基本URL。即使按照标准,我也不相信机器人能正确理解这一点。

    401 Access denied 或者类似的头,如果由于相同的原因在没有查询字符串的情况下调用URL:bot可能认为资源完全超出了界限。

    在你这种情况下我会做的是,如果有人来

     http://www.example.com/export
    

    发送一个 301 Moved permanently 重定向到相同的URL和具有某些默认值的查询字符串,如

     http://www.example.com/export?foo=0
    

    这将保持搜索引擎索引的干净。(不过,它不会修复您在评论中指出的日志记录问题。)