1
0
那个Hadoop文档有点过时了;我会在谷歌上搜索“Spark and Object Stores”,以获取更多最新的内容。 这个 spark documentation 有一些火花的具体细节。
好问题。美国焊接学会从不给出硬数据;最好的实证研究是 Benchmarking Eventual Consistency: Lessons Learned from Long-Term Experimental Studies 这表明一致性延迟依赖于总的AWS负载,并且有一些其他模式。因为它的变量很大,所以没人敢给出“未定义时间”的好值。 我的一般期望是
比这更糟。您不能依赖单个作业中的重命名操作来正确地进行重命名。 这就是为什么Amazon使用dynamodb提供一致的emrfs选项来列出一致性,而Hadoop2.9+有一个特性S3guard,它使用dynamodb进行相同的操作。不过,这两种方法都不能解决更新不一致的问题,这也是Hadoop3.1的“S3A提交者”默认为新文件生成唯一的文件名的原因。
如果您使用ApacheS3A连接器使用普通文件系统将工作提交到S3
别担心锁链工作;担心那件事。 顺便问一下:我不知道Databricks在这里做什么。向他们询问细节。
分区基于对象存储连接器组成的块大小。例如,对于S3A连接器,它是
|
Bruno Peixoto · Spark群集CI管道构建失败 1 年前 |
mcsilvio · 在foreach中组织联接的最佳方式是什么? 1 年前 |
Dhruv · 在sbt控制台上运行Spark 1 年前 |
Leonard · Pyspark:JSON到Pyspark数据帧 1 年前 |
billie class · 将列中的值重写为列表中的下一个值 2 年前 |