代码之家 › 专栏 › 技术社区 › Sheel Pancholi

Kafka-Spark流集成:任务与数据流的关系

dstream spark-streaming-kafka spark-streaming apache-kafka apache-spark

Sheel Pancholi · 技术社区 · 6 年前

ExecutorCoarseGrainedBackend (main) -> Executor (launchtask) -> TaskRunner (Runnable).run() -> task.run(...)

接收器 基于使用高级Kafka消费api

在这里,每个批处理间隔(比如5秒)创建一个新的(微)批处理,其中包含5个分区(=>1秒阻塞间隔) 接收器 任务并交给下游常规

问题: 有规律的

如果 乌巴奇1 (P1、P2、P3、P4、P5) 在时间 T0级 ,将 乌巴奇2 隔墙数量 (P1',P2',P3',P4',P5') 在时间 T5级 也可以分配给同一组任务 (T1、T2、T3、T4、T5) 还是会有新的任务 (T6、T7、T8、T9、T10) 为创建 乌巴奇2 ?

如果是后者,那么当您已经知道有任务在做完全相同的事情并且可以作为长时间运行的任务重新使用时,每5秒就必须通过网络将新任务发送给执行者,这不是性能密集型的吗?
直接

t型

问题: 说吧,那个 乌巴奇1 T0级 有分区 (P1、P2、P3、P4、P5) (T1、T2、T3、T4、T5)。 威尔 乌巴奇2 隔墙数量 (P1',P2',P3',P4',P5') 在时间 T5级 也可以分配给同一组任务 (T1、T2、T3、T4、T5) 为创建 乌巴奇2 ?

0 回复 | 直到 6 年前

Sheel Pancholi 6 年前

在阅读了apachespark的源代码之后,这里给出了一个明确的答案:

我们使用从以数据流DAG的形式在流上创建并保存以 DStream,其中每个DStream是rdd的容器,即Hashmap
这个 前驱流 在的数据流图中注册 .
在 ssc.启动 (-ing)执行时,JobScheduler将保存的计划放在事件循环上,该循环每 ubatch间隔秒 为每个数据流创建/提取RDD,并从每个数据流中提取RDD,然后将其保存在
并在此过程中创建以中指定的操作结尾的RDD DAG 然后向DAG调度程序提交一个新作业。

此循环每间隔秒重复一次。

推荐文章

xiang qi · 结构化流媒体程序无法连续运行。运行几分钟后,打印[INFO]StateStore:57

1 年前

user3692015 · 流处理如何处理历史聚合?

1 年前

data_pikachu · 班级组织。阿帕奇。hadoop。财政司司长。s3a。啊。尝试从Spark在S3存储桶上写入数据时,未找到IAMInstanceCredentialsProvider

3 年前

sharon gur · Kafka spark同步流处理作业

7 年前

vijay · Spark streaming作业日志大小溢出

7 年前

Pawan · Spark Streaming中setJars()方法的输入应该是什么

7 年前

Frank · Spark Streaming kafka偏移量管理

7 年前

a.moussa · 线程“main”java中出现异常。lang.NoClassDefFoundError:org/apache/spark/streaming/StreamingContext

7 年前

Francesco · 在Spark Streaming中将StreamingContext与接收器分离

7 年前

maxness · Spark将Kafka输入流另存为Json文件

7 年前