代码之家  ›  专栏  ›  技术社区  ›  BARATH

apache nifi-使用kafka+合并内容+放置hdfs以避免小文件

  •  2
  • BARATH  · 技术社区  · 6 年前

    我在Kafka主题中有大约2000000条消息,我想使用nifi将这些记录放入HDF,因此我正在使用 put hdfs->processor for this,以及 consumekafka_0_10->code>但它在hdfs中生成小文件,因此我在推送文件之前使用合并内容处理器来合并记录。 如果配置需要更改,请提供帮助。对于少量消息,这很好,但对于具有大量数据的主题,每次记录只写一个文件。

    谢谢!!他的随从 ConsumeKafka_0_10 但是它在hdfs中生成小文件,所以我在推送文件之前使用合并内容处理器来合并记录。 enter image description here 如果配置需要更改,请提供帮助。对于少量消息,这很好,但对于具有大量数据的主题,每个记录只写一个文件。

    谢谢您!!

    1 回复  |  直到 6 年前
        1
  •  3
  •   Bryan Bende    6 年前

    最小条目数设置为1,这意味着它可以有从1到最大条目数的任何地方。试着把它调高一些,比如100K。