1
0
Kafka Connect是完全独立运行的进程,而不是通过Oozie调度的。 它永远不会死,除非发生错误,如果Oozie重新启动一个失败的任务,你几乎可以保证在HDF上得到重复的数据,因为连接偏移量不会持久存储在除本地磁盘以外的任何地方(假设连接在单独的机器上重新启动),所以我看不到这一点。
你应该独立运行
如果你绝对想使用Oozie,Confluent包含了camus工具,这是不赞成使用connect的,但是我已经维护了camus+oozie过程一段时间了,它工作得很好,一旦添加了很多主题,就很难监控失败。ApacheGobbilin是该项目的第二个迭代,不是由Confluent维护的。 它还显示您正在运行HDP,因此ApacheNifi应该能够安装在集群上,也可以处理与Kafka和HDFS相关的任务。 |