代码之家 › 专栏 › 技术社区 › Furkan Gözükara

如何在爬网时分析(仅文本)网站

nutch parsing

-1

Furkan Gözükara · 技术社区 · 14 年前

我可以在windows xp上通过cygwin成功运行crawl命令。我也可以通过tomcat进行web搜索。

但我也希望在爬网事件期间保存解析的页面

所以当我开始像这样爬的时候

bin/nutch爬网url-dir crawled-深度3

我还希望将解析的html文件保存为文本文件

我是说在这段时间里,我从上面的命令开始

当获取一个页面时,它也会自动将解析的页面(仅文本)保存到文本文件中。

可以获取这些文件名的url

我真的需要帮助

这将用于我的大学语言检测项目

1 回复 | 直到 14 年前

Pascal Dimassimo 14 年前

已爬网的页存储在段中。您可以通过转储段内容来访问它们:

nutch readseg -dump crawl/segments/20100104113507/ dump

您必须对每个段执行此操作。

推荐文章

batman · 如何用特定模式grep特定行及其子网行?

2 年前

user19251203 · ReactJs:Uncaught TypeError:无法读取未定义的属性(读取“0”)

2 年前

Jensen Holm · 在非常大的字符串中查找链接时遇到问题

2 年前

MBF · PHP导入/解析XML文件内容保存到数据库

2 年前

John Bustos · Javascript——基于字典/对象中的键解析字符串

2 年前

user10717742 · 用java编写的自定义文件解析器需要改进

2 年前

Taj Harris · JSONArray文本必须以“[”开头,位于1[字符2第1行]:需要帮助解析Json

2 年前

Muhsin Muhammed · 向文件中的行添加引号和逗号

2 年前

Felkru · 添加字符串会在Javascript中返回空字符串

2 年前

Mustard Tiger · 熊猫解析文本列

2 年前