代码之家  ›  专栏  ›  技术社区  ›  Sraw

在蜂巢中,发动机的mr和spark有什么区别?

  •  0
  • Sraw  · 技术社区  · 5 年前

    看起来有两种方法可以使用spark作为Hive的后端引擎。

    spark 作为引擎。这样地 tutorial .

    火花 作为后端引擎 MapReduce . 这样地 tutorial .

    在第一个教程中 hive.execution.engine 火花 . 我看不见 hdfs 卷入的。

    蜂巢执行引擎 仍然 mr hadoop 进程,它看起来像 先生 是火花。

    先生 已弃用。但是在哪里 卷入的?

    0 回复  |  直到 5 年前
        1
  •  1
  •   Ged    5 年前

    我有不同的理解。

    但在一段时间内,Spark可以作为Spark的执行引擎。

    https://blog.cloudera.com/blog/2014/07/apache-hive-on-apache-spark-motivations-and-design-principles/ 更详细地讨论这个问题。

        2
  •  1
  •   Lovish saini    5 年前

    Apache Spark构建DAG(有向无环图),而Map Reduce使用本机Map和Reduce。在Spark中执行时,逻辑依赖形成物理依赖。

    达格 ?

    DAG是在执行之前构建逻辑依赖关系的 enter image description here DAG是在Tez(照片的右侧)中构建的,而不是MapReduce(左侧)。

    注:

    原因2: 映射将其输出持久化到磁盘(缓冲区也一样,但是当90%的缓冲区被填满时,输出就进入磁盘)从那里数据被合并。 Check this link for details