代码之家 › 专栏 › 技术社区 › Ged

使用S3处理HDFS时缺少数据节点位置-最终一致性

apache-spark

Ged · 技术社区 · 7 年前

一些未定义的时间?这对于编写Spark应用程序意味着什么?如果我有n个工作,那可能是一些还看不见的东西?

1 回复 | 直到 7 年前

stevel 7 年前

那个Hadoop文档有点过时了;我会在谷歌上搜索“Spark and Object Stores”,以获取更多最新的内容。

这个 spark documentation 有一些火花的具体细节。

一些未定义的时间?这对于编写Spark应用程序意味着什么?

这表明一致性延迟依赖于总的AWS负载,并且有一些其他模式。因为它的变量很大,所以没人敢给出“未定义时间”的好值。

我的一般期望是

如果我有n个工作,那可能是一些还看不见的东西?

比这更糟。您不能依赖单个作业中的重命名操作来正确地进行重命名。

这就是为什么Amazon使用dynamodb提供一致的emrfs选项来列出一致性,而Hadoop2.9+有一个特性S3guard,它使用dynamodb进行相同的操作。不过,这两种方法都不能解决更新不一致的问题,这也是Hadoop3.1的“S3A提交者”默认为新文件生成唯一的文件名的原因。

如果您使用ApacheS3A连接器使用普通文件系统将工作提交到S3 FileOutputCommitter 然后,如果没有S3guard,您将面临丢失数据的风险。

别担心锁链工作;担心那件事。

顺便问一下:我不知道Databricks在这里做什么。向他们询问细节。

Spark默认分区是如何应用于S3数据的?

分区基于对象存储连接器组成的块大小。例如,对于S3A连接器,它是 fs.s3a.blocksize

推荐文章

user3579222 · 阅读以前的Spark API

5 月前

JFlo · 在PySpark笔记本中读取多个Parquet文件

6 月前

Matthew Thomas · partition覆盖动态和“逻辑”分区

10 月前

Jamal Khan · 如何在Apache Spark中读取500 GB的大文件CSV文件并对其执行聚合?

11 月前

Nakeuh · 从数组列中新建数据帧列

11 月前

maximodesousadias · 如何根据条件删除日期后的记录

11 月前

Ajay S Pal · 当调用函数时传递参数时,PySpark没有在函数内部创建Dataframe

1 年前

SUBHOJEET · 如何使用pyspark读取rds文件?

1 年前

Shankar Panda · 如何从org.apache.spark.sql获取密钥。在scala中键入列并将其放入列表变量中?

1 年前

Aaron Brazier · 连接2个pyspark数据帧并继续运行窗口sum和max

1 年前