代码之家  ›  专栏  ›  技术社区  ›  Furkan Gözükara

如何在爬网时分析(仅文本)网站

  •  -1
  • Furkan Gözükara  · 技术社区  · 14 年前

    我可以在windows xp上通过cygwin成功运行crawl命令。我也可以通过tomcat进行web搜索。

    但我也希望在爬网事件期间保存解析的页面

    所以当我开始像这样爬的时候

    bin/nutch爬网url-dir crawled-深度3

    我还希望将解析的html文件保存为文本文件

    我是说在这段时间里,我从上面的命令开始

    当获取一个页面时,它也会自动将解析的页面(仅文本)保存到文本文件中。

    可以获取这些文件名的url

    我真的需要帮助

    这将用于我的大学语言检测项目

    TY

    1 回复  |  直到 14 年前
        1
  •  1
  •   Pascal Dimassimo    14 年前

    已爬网的页存储在段中。您可以通过转储段内容来访问它们:

    nutch readseg -dump crawl/segments/20100104113507/ dump
    

    您必须对每个段执行此操作。