代码之家 › 专栏 › 技术社区 › systempuntoout

如何禁止使用robots.txt访问不带参数的url

web-crawler robots.txt

systempuntoout · 技术社区 · 14 年前

允许使用这种url:

蜘蛛机器人在叫 /export 没有查询字符串会在我的日志中导致很多错误。
有没有办法在robots.txt上管理这个过滤器?

1 回复 | 直到 14 年前

Pekka 14 年前

我假设你有问题与机器人点击第一个网址在你的例子。

正如评论中所说,这可能是不可能的,因为 http://www.example.com/export 是资源的基本URL。即使按照标准,我也不相信机器人能正确理解这一点。

401 Access denied 或者类似的头,如果由于相同的原因在没有查询字符串的情况下调用URL:bot可能认为资源完全超出了界限。

在你这种情况下我会做的是,如果有人来

 http://www.example.com/export

发送一个 301 Moved permanently 重定向到相同的URL和具有某些默认值的查询字符串,如

 http://www.example.com/export?foo=0

这将保持搜索引擎索引的干净。(不过,它不会修复您在评论中指出的日志记录问题。)

推荐文章

chans.best · StormCrawler和Hortonworks 1.1.0.2.6.4.0-91之间的Commons日志版本冲突

6 年前

Tae · Python3中方法has\u key的替换

6 年前

Jonas Pohlmann · Stormcrawler没有为elasticsearch获取/索引页面

6 年前

Teslaturing · 在python中从结果中获取指定单词后的动态数字并存储在数据库中

6 年前

Vega · 如何从DOM获取所有链接?

6 年前

Vivek Kumar Sinha · 产生刮痕。请求()无法正常工作以爬网下一页

6 年前

bob9123 · 为什么状态和索引中的文档计数不同?

7 年前

Konstantin · crawler中未启动回调函数,scrapy

7 年前

SY9 · 刮:已爬网并刮取0个项目

7 年前

Vani4ka · Crawler4j、Jsoup和JavaScript:提取用JavaScript修改的属性值

7 年前