代码之家  ›  专栏  ›  技术社区  ›  CuriousMind

Hadoop自身的序列化及其与AVRO序列化的关系?

  •  0
  • CuriousMind  · 技术社区  · 6 年前

    我试图理解Avro,并逐渐了解到它是Hadoop使用的数据序列化框架之一。

    在学习Hadoop的过程中,我了解到Hadoop使用自己的Serization框架,而不是Java的序列化,所以我可以看到 Writable ,则, WritableComparable 在Hadoop中。

    现在,在检查了AVRO之后,它说AVRO被用作Serlization框架。

    我有点困惑,因为这一点。所以,当我们说Hadoop自己的序列化框架时,我们是指Avro还是其他东西(它是在“Hadoop”本身中构建的)。

    有人能帮我理解这一点吗?

    1 回复  |  直到 6 年前
        1
  •  1
  •   OneCricketeer Gabriele Mariotti    6 年前

    Hadoop可写文件不是Avro,而是“其他东西”

    Avro是一个单独的项目,它的模式模型允许嵌套结构和演化。据我所知,Hadoop序列化没有概念模式演变。

    Thrift是Hadoop项目中常见的另一种面向行的序列化格式。

    其他(柱状)数据存储格式包括拼花地板和ORC