代码之家  ›  专栏  ›  技术社区  ›  Abhishek Ramachandran

通过Nutch Rest API添加URL过滤器regex

  •  0
  • Abhishek Ramachandran  · 技术社区  · 6 年前

    我正在使用Nutch版本1.12来爬网url。我只需要爬网一些特定的url。我知道可以使用 regex-urlfilter 文件。我想知道Nutch REST API中是否有任何选项可以像 nutch-site.xml .

    1 回复  |  直到 6 年前
        1
  •  1
  •   Jorge Luis    6 年前

    据我所知,您可以更改配置(更改 urlfilter.regex.file regex-urlfilter.txt 默认情况下)。您可以有不同的文件,然后更改配置以指向不同的文件并重新启动作业。