代码之家 › 专栏 › 技术社区 › Sraw

在蜂巢中,发动机的mr和spark有什么区别?

hive hadoop apache-spark

Sraw · 技术社区 · 5 年前

看起来有两种方法可以使用spark作为Hive的后端引擎。

spark 作为引擎。这样地 tutorial .

火花 作为后端引擎 MapReduce . 这样地 tutorial .

在第一个教程中 hive.execution.engine 是 火花 . 我看不见 hdfs 卷入的。

蜂巢执行引擎 仍然 mr hadoop 进程,它看起来像 先生 是火花。

先生 已弃用。但是在哪里卷入的?

0 回复 | 直到 5 年前

Ged 5 年前

我有不同的理解。

但在一段时间内,Spark可以作为Spark的执行引擎。

Lovish saini 5 年前

Apache Spark构建DAG(有向无环图),而Map Reduce使用本机Map和Reduce。在Spark中执行时,逻辑依赖形成物理依赖。

达格 ?

DAG是在执行之前构建逻辑依赖关系的 DAG是在Tez(照片的右侧)中构建的,而不是MapReduce(左侧)。

注:

原因2: 映射将其输出持久化到磁盘(缓冲区也一样,但是当90%的缓冲区被填满时,输出就进入磁盘)从那里数据被合并。 Check this link for details

推荐文章

ÐÐ½Ð´ÑÐµÐ¹ Ð¡Ð¼Ð¸ÑÐ½Ð¾Ð² · 通过xplpath从xml加载字段时出现问题

2 年前

Mayank Bandral · pig中下面提到的数据的模式应该是什么?

6 年前

aiman · Hive-2.3.2 metastore with MySQL无法启动

6 年前

OOvic · Spark Java API中的连接行数据集

6 年前

enodmilvado · avahi守护程序是否应该在hadoop群集计算机上运行?

6 年前

LearningNinja · 火花执行人。spark submit中忽略了extraJavaOptions

6 年前

ForeverLearner · 当我在Hive中使用OpenCSVSerde时,为什么所有列都被创建为字符串?

6 年前

tooptoop4 · apache ranger with hive插件-需要持久化哪些对象

6 年前

Rupesh More · 合流HDFS接收器连接器:如何配置自定义hadoop用户和组?

6 年前