代码之家 › 专栏 › 技术社区 › nat

robots.txt忽略所有文件夹,但爬网根目录中的所有文件

robots.txt apache

nat · 技术社区 · 15 年前

那我该做吗

用户代理:*

不允许:/

就这么简单吗? 或者它也不会抓取根目录中的文件吗?

基本上,这就是我所追求的-在根目录中爬行所有文件/页面,但不爬行任何文件夹或者我必须显式地指定每个文件夹..工业工程

不允许:/管理员

不允许:

…等

谢谢

NAT

1 回复 | 直到 15 年前

BenM 15 年前

您的示例将阻止根目录中的所有文件。

没有 "standard" 不必显式指定每个文件夹就可以轻松完成所需的任务。

但是有些爬虫 do support extensions 这将允许您进行模式匹配。您可以不允许所有不支持模式匹配的bot,但允许那些不支持模式匹配的bot。

例如

# disallow all robots
User-agent: *
Disallow: /

# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow: /

推荐文章

learningtech · docker容器中的PHP file_put_contents()无法写入底层的ubuntu操作系统

1 年前

Priya Patel · .htaccess重定向问题具有多个。htaccess文件

2 年前

Tomas Premoli Muniagurria · 在apache vm上托管网站的利弊

2 年前

Adithya · Apache mod_重写以调用不同的URL

2 年前

Coolen · 通过htaccess重定向并删除部分链接

2 年前

Ahnaf · 添加。php扩展,如果路径不是包含的文件夹。htaccess

2 年前

SmpathE · Apache尊重代理-URL太长-(正在检查其他选项)

2 年前

ciromanfredi · Apache任务组执行

2 年前

Meryan · 如何配置索引。html和我的apache可以避免CORS错误吗?

2 年前

Rabi · php和libapache2 mod php之间的区别

2 年前