代码之家  ›  专栏  ›  技术社区  ›  HasanG Joe Dabones

拒绝机器人下载我的文件

  •  5
  • HasanG Joe Dabones  · 技术社区  · 14 年前

    我有一个asp.net下载页,它向客户端发送一个文件,但我想拒绝机器人下载这个文件,因为这个文件很大,从记录中可以看出,机器人下载这个文件大约20次。这会降低服务器的速度并导致带宽消耗。

    我将此页面编码为计算下载量并检测客户端的.net framework,以便发布包含或不包含.net framework的安装文件。

    我需要以某种方式拒绝谷歌和其他机器人进入这个页面。

    4 回复  |  直到 8 年前
        1
  •  8
  •   Martin Wickman    14 年前

    是的,将robots.txt文件添加到您的站点。它应该包含一个蜘蛛行为的规则列表(建议)。

    退房 this 文章获取更多信息。还有踢腿, this 是Google使用的robot.txt文件。

        2
  •  4
  •   Michael Mrozek    14 年前

    你想要一个 robots.txt file

    User-agent: *
    Disallow: /download.aspx
    

    这不会强制阻止搜索引擎,但大多数(包括Google)会检查robots.txt文件并按照其说明进行操作

        3
  •  3
  •   Donnie    14 年前

    表现良好

    然而,重要的是要知道并非所有的机器人都表现良好,robots.txt只是一个建议。如果你有没有公开链接的页面,不要在robots.txt中列出它们来“保护”它们,因为一些行为特别糟糕的机器人实际上会扫描文件,看看有哪些有趣的url他们可能还不知道。

        4
  •  3
  •   Laramie    14 年前

    代替robots.txt文件,您不可能用 <meta name="robots" content="noindex"> 标签。

    • 再如唐尼所说,这是 没有要求遵循它。

    • 实现一个验证码方法 希望用户访问受保护的 把你最大的 文件夹。

    • 易于分析的内容 机器人, 在下载链接上使用Javascript 改变你的方向 用户。许多机器人不会执行 javascript,尽管bot混淆是