代码之家 › 专栏 › 技术社区 › monksy

为Hadoop将大型XML文件拆分为可管理的部分

hadoop xml

monksy · 技术社区 · 14 年前

例如,XML文件是:

<root>
  <parent> data </parent>
  <parent> more data</parent>
  <parent> even more data</parent>
</root>

我将每个部分定义为: /根/父。

我要问的是:Hadoop是否已经包含了一个记录输入读取器来实现这一点?

1 回复 | 直到 14 年前

Binary Nerd 14 年前

图书馆提供了一个 XMLInputFormat class 可能有用。

同样有趣的是Cloud9文档中的这个页面,它介绍了如何处理 XML dump of Wikipedia in MapReduce .

推荐文章

JobProcessTask · 如何读取此xpath表达式?

2 年前

Sven K · 无法访问XML数据结构中的“数据”:“名称属性>数据”

2 年前

sklal · 在Python中从S3存储桶读取xml文件——只存储最后一个文件的内容

2 年前

MBF · PHP导入/解析XML文件内容保存到数据库

2 年前

TenkMan · SQL Server XML嵌套值查询表单990

2 年前

lam62 · 如何使用XML从XHTML/XML中提取相关数据。dom。小型化

2 年前

Mohan.Murali.Peddini · XSLT模板循环记录

2 年前

mayo0o · 检查元素的总和

2 年前

crichavin · 排除XSLT的(1.0)行返回和文本输出中的额外空白

2 年前

Crimp · 从Excel导出后,在XML文件和PowerShell输出中发现奇怪字符:

2 年前