![]() |
1
0
那个Hadoop文档有点过时了;我会在谷歌上搜索“Spark and Object Stores”,以获取更多最新的内容。 这个 spark documentation 有一些火花的具体细节。
好问题。美国焊接学会从不给出硬数据;最好的实证研究是 Benchmarking Eventual Consistency: Lessons Learned from Long-Term Experimental Studies 这表明一致性延迟依赖于总的AWS负载,并且有一些其他模式。因为它的变量很大,所以没人敢给出“未定义时间”的好值。 我的一般期望是
比这更糟。您不能依赖单个作业中的重命名操作来正确地进行重命名。 这就是为什么Amazon使用dynamodb提供一致的emrfs选项来列出一致性,而Hadoop2.9+有一个特性S3guard,它使用dynamodb进行相同的操作。不过,这两种方法都不能解决更新不一致的问题,这也是Hadoop3.1的“S3A提交者”默认为新文件生成唯一的文件名的原因。
如果您使用ApacheS3A连接器使用普通文件系统将工作提交到S3
别担心锁链工作;担心那件事。 顺便问一下:我不知道Databricks在这里做什么。向他们询问细节。
分区基于对象存储连接器组成的块大小。例如,对于S3A连接器,它是
|
![]() |
user3579222 · 阅读以前的Spark API 5 月前 |
![]() |
JFlo · 在PySpark笔记本中读取多个Parquet文件 6 月前 |
![]() |
Matthew Thomas · partition覆盖动态和“逻辑”分区 10 月前 |
![]() |
Nakeuh · 从数组列中新建数据帧列 11 月前 |
![]() |
maximodesousadias · 如何根据条件删除日期后的记录 11 月前 |
![]() |
SUBHOJEET · 如何使用pyspark读取rds文件? 1 年前 |