代码之家 › 专栏 › 技术社区 › maxness

Spark将Kafka输入流另存为Json文件

spark-streaming apache-kafka apache-spark json java

maxness · 技术社区 · 7 年前

我只是想知道Spark中是否有一个方法,所以我可以将JavaInputDStream保存为Json文件,或者通常保存为任何文件。如果没有,是否有其他可能保存 Spark中作为文件的卡夫卡主题。

非常感谢你!

1 回复 | 直到 7 年前

Caio Boratto 7 年前

当您映射 JavaInputDStream 到a stream 您可以执行以下操作:

stream.foreachRDD(rdd -> {
            OffsetRange[] offsetRanges = ((HasOffsetRanges) rdd.rdd()).offsetRanges();

            rdd.mapToPair(new PairFunction<ConsumerRecord<String, String>, String, String>() {
                @Override
                public Tuple2<String, String> call(ConsumerRecord<String, String> record) {
                    return new Tuple2<>(record.key(), record.value());
                }
            }).foreachPartition(partition -> {

                OffsetRange o = offsetRanges[TaskContext.get().partitionId()];
                System.out.println(o.topic() + " " + o.partition() + " " + o.fromOffset() + " " + o.untilOffset());

                if (partition.hasNext()) {

                    PrintWriter out = new PrintWriter("filename.txt");;
                    out.println(text);

                    try {
                        while (partition.hasNext()) {

                            Tuple2<String, String> message = partition.next();
                            out.println(message);
                        }

                    } catch (Exception e) {
                        e.printStackTrace(
                }

            });
        });
        ssc.start();
        ssc.awaitTermination();

不要忘记,如果您的Kafka主题中有多个分区,那么您将按照上述方法为每个分区编写一个文件。

推荐文章

yershalom · 同一消费群体中具有不同分区数量的不同卡夫卡主题

2 年前

Oskars Apinis · 将kafka从服务器迁移到docker容器

2 年前

Sravan Kumar · Apache kafka模式注册表问题

2 年前

Panadol Chong · 无法建立到节点1(localhost/127.0.0.1:9092)的连接。经纪人可能不在。甚至传入正确的端点[重复]

2 年前

MrSham · 如何确保旧版本0.10.0在卡夫卡中只处理一次

2 年前

TheTags · Kafka-PLC4X-Modbus/TCP-作业刮取期间异常

2 年前

Iheb Mar · 卡夫卡制作人/消费者粉碎每一秒的API调用

2 年前

hasherBaba · 在为Nifi编写流媒体服务时,如何解决Java的空指针异常?[闭门]

6 年前

phaigeim · 为storm consumer检查卡夫卡主题的偏移量

6 年前

Raman · Kafka流:POJO序列化/反序列化

6 年前