1
2
这是你的家庭练习,需要一些编码。
有人告诉我(这里有几个问题),spark avro 不 支持Spark结构化流媒体(又名Spark Streams)。它可以很好地处理非流数据集,但不能处理流数据集。 这就是为什么我写道,这是你必须自己编码的东西。 可以如下所示(为了简单起见,我使用Scala):
这需要开发
或者(用一种更高级的?/复杂的方法)编写自己的自定义流媒体 Source 用于Kafka中Avro格式的数据集,并改用它。
我还没找到可行的方法
因此,我认为UDF是目前最好的解决方案。 只是一个想法,你也可以写一个自定义卡夫卡 Deserializer 这将在Spark加载消息时进行反序列化。 |
Bruno Peixoto · Spark群集CI管道构建失败 1 年前 |
mcsilvio · 在foreach中组织联接的最佳方式是什么? 1 年前 |
Dhruv · 在sbt控制台上运行Spark 1 年前 |
Leonard · Pyspark:JSON到Pyspark数据帧 1 年前 |
billie class · 将列中的值重写为列表中的下一个值 2 年前 |