代码之家  ›  专栏  ›  技术社区  ›  monksy

为Hadoop将大型XML文件拆分为可管理的部分

  •  5
  • monksy  · 技术社区  · 14 年前

    例如,XML文件是:

    <root>
      <parent> data </parent>
      <parent> more data</parent>
      <parent> even more data</parent>
    </root>
    

    我将每个部分定义为: /根/父。

    我要问的是:Hadoop是否已经包含了一个记录输入读取器来实现这一点?

    1 回复  |  直到 14 年前
        1
  •  1
  •   Binary Nerd    14 年前

    我认为 Cloud9 project at UMD

    图书馆提供了一个 XMLInputFormat class 可能有用。

    同样有趣的是Cloud9文档中的这个页面,它介绍了如何处理 XML dump of Wikipedia in MapReduce .