代码之家  ›  专栏  ›  技术社区  ›  AngiSen

无分布式存储的火花[复制]

  •  0
  • AngiSen  · 技术社区  · 5 年前

    嗨,谁能解释我,APACHE的SCALL独立需要HDFS吗?

    如果需要spark在spark应用程序执行期间如何使用hdfs块大小。 我的意思是试图理解在spark应用程序执行期间hdfs的角色是什么。

    spark文档说,处理并行性是通过rdd分区和执行器/核心来控制的。

    谁能帮助我理解?

    0 回复  |  直到 8 年前
        1
  •  1
  •   user6022341    8 年前

    SCAPLE可以在没有任何问题的情况下工作而不使用HDFS,当然也不需要核心执行。

    某些分布式存储(不一定是hdfs)对于checkpointing是必需的,并且对于保存结果很有用。