代码之家 › 专栏 › 技术社区 › AngiSen

无分布式存储的火花[复制]

hdfs pyspark apache-spark

AngiSen · 技术社区 · 6 年前

嗨,谁能解释我,APACHE的SCALL独立需要HDFS吗?

如果需要spark在spark应用程序执行期间如何使用hdfs块大小。我的意思是试图理解在spark应用程序执行期间hdfs的角色是什么。

spark文档说,处理并行性是通过rdd分区和执行器/核心来控制的。

谁能帮助我理解?

0 回复 | 直到 8 年前

user6022341 8 年前

SCAPLE可以在没有任何问题的情况下工作而不使用HDFS,当然也不需要核心执行。

某些分布式存储(不一定是hdfs)对于checkpointing是必需的,并且对于保存结果很有用。

推荐文章

Leonard · Pyspark:JSON到Pyspark数据帧

1 年前

Fran Arenas · Pyspark collect()方法在Pycharm或控制台中执行测试时给出了不同的顺序

2 年前

titutubs · 有没有一种更有效的方法来为Databricks SQL中的bin值编写代码?

2 年前

markwatson · AWS Glue:如何在输出中添加具有源文件名的列?

6 年前

juamd · 顺序(k,<元组>)RDD

6 年前

Gaurav Gupta · 如何加载多行记录的CSV文件?

6 年前

Jared · 如何在本地模式下运行的pyspark中读取S3?

6 年前

ka_boom · 在pyspark中链接多个groupBy

6 年前

ds_user · 在apache spark中复制记录计数

6 年前

ds_user · 结合类型和子类型的Apache Spark组

6 年前