代码之家  ›  专栏  ›  技术社区  ›  nat

robots.txt忽略所有文件夹,但爬网根目录中的所有文件

  •  1
  • nat  · 技术社区  · 15 年前

    那我该做吗

    用户代理:*

    不允许:/

    就这么简单吗? 或者它也不会抓取根目录中的文件吗?

    基本上,这就是我所追求的-在根目录中爬行所有文件/页面,但不爬行任何文件夹 或者我必须显式地指定每个文件夹..工业工程

    不允许:/管理员

    不允许:

    …等

    谢谢

    NAT

    1 回复  |  直到 15 年前
        1
  •  2
  •   BenM    15 年前

    您的示例将阻止根目录中的所有文件。

    没有 "standard" 不必显式指定每个文件夹就可以轻松完成所需的任务。

    但是有些爬虫 do support extensions 这将允许您进行模式匹配。您可以不允许所有不支持模式匹配的bot,但允许那些不支持模式匹配的bot。

    例如

    # disallow all robots
    User-agent: *
    Disallow: /
    
    # let google read html and files
    User-agent: Googlebot
    Allow: /*.html
    Allow: /*.pdf
    Disallow: /