0
|
Raghav salotra · 技术社区 · 6 年前 |
![]() |
1
1
分区持续时间确定基于时间的分区器创建新“path.format”的频率。在您的例子中,1秒的分区持续时间没有意义,因为您已经将分区器设置为只进行每小时一次的分区。 那么flush大小是任何给定文件中存在多少Kafka记录的上限 这些价值观背后的思想取决于你的主题的吞吐量,以及在你阅读S3的记录而不是直接从卡夫卡的记录之前你愿意忍受的延迟时间。 请注意,您为每个S3扫描付费,因此更高的刷新率和更少的总体文件将有助于节省资金 |
![]() |
2
3
不
这设置了 目录结构粒度 到一个 小时
这些文件将写入“hourly”目录,其中包含为其生成文件的“second”。 即,hourly目录将包含该小时的所有数据(在本例中为每秒所有文件) |