代码之家 › 专栏 › 技术社区 › Amitabh Ranjan

卡夫卡-多主题与多分区

apache-kafka apache-spark

Amitabh Ranjan · 技术社区 · 7 年前

我正在开发一个apache spark用例,需要从kafka中读取数据。我有一个非常基本的问题来理解spark读取卡夫卡数据的方式。

根据我的理解,如果数据速度和容量很高,那么我可以在kafka中创建多个分区,并在spark中读取。现在,dstream中的分区数与kafka中的分区数相同。

现在我的问题是:-

我只有一个生产者和一个消费者。

在第一个场景中:-

(1) 1个卡夫卡主题,4个分区-->1个带4个分区的数据流

在第二种情况下:-

但在这里,我可以“联合”所有数据流来创建单个数据流。

unionedDstream= dstream1.union(dstream2).union(dstream3).union(dstream4)

现在,“unionedDstream”将变成“具有4个分区的1个数据流”(与第一个场景相同)。如果是,那么哪个流程在性能方面更有效?

1 回复 | 直到 7 年前

Thilo 7 年前

我假设在单节点场景中或多或少是一样的,但是如果你想利用Kafka的集群/负载平衡功能,你需要有多个分区。

Kafka中的水平扩展是通过将消费者群体分布在多台机器上并在其中分布分区来实现的。这仅在您有多个分区时有效。

推荐文章

Geoffrey · Pyspark:将数据帧保存到多个具有单个文件特定大小的镶木地板文件中

1 年前

Bruno Peixoto · Spark群集CI管道构建失败

1 年前

codebot · 将df从pandas转换为PySpark时会删除列名

1 年前

mcsilvio · 在foreach中组织联接的最佳方式是什么?

1 年前

Dhruv · 在sbt控制台上运行Spark

1 年前

Leonard · Pyspark:JSON到Pyspark数据帧

1 年前

billie class · 将列中的值重写为列表中的下一个值

2 年前

Calcutta · Google Colab中的Spark SQL在大数据上失败

2 年前

Doraemon · PySpark:使用不同值的字符串类型列创建聚合列

2 年前

OdiumPura · 使用JDBC(Sql server)查询tempview

2 年前