0
|
tooptoop4 · 技术社区 · 6 年前 |
![]() |
1
0
如中所述 HADOOP-15542 . 在“普通”fs的目录下不能有文件;在s3a连接器中不能得到它们,至少在它做了足够的尽职调查的地方。 它只是混淆了每一个树遍历算法,重命名,删除,任何扫描文件。这将包括spark分区逻辑。您试图创建的新目录树可能对调用方不可见。(您可以通过创建它、将文本文件放置到位来测试它,看看会发生什么) 我们试图定义一个fs应该在 The Hadoop Filesystem Specification ,包括定义“非常明显”的东西,以至于没有人费心写下它们或为之编写测试,例如
我们经常会发现一些我们忘记考虑的新东西,哪些“真正的”文件系统强制执行了开箱即用,但哪些对象存储没有。然后我们添加测试,尽力维护这个隐喻,除非性能影响会使其不可用。然后我们选择不去修理,希望没人注意到。一般来说,由于在hadoop/hive/spark空间中处理数据的人对文件系统的功能有着相同的先入之见,因此这些模糊性实际上不会在生产中造成问题。 当然,除了最终的一致性,这就是为什么不应该在没有一致性服务(s3guard,consistent emrfs)或为这个世界设计的提交协议(s3 a committer,databricks dbio)的情况下直接从spark向s3写入数据。 |
![]() |
Bruno Peixoto · Spark群集CI管道构建失败 1 年前 |
![]() |
mcsilvio · 在foreach中组织联接的最佳方式是什么? 1 年前 |
![]() |
Dhruv · 在sbt控制台上运行Spark 1 年前 |
![]() |
Leonard · Pyspark:JSON到Pyspark数据帧 1 年前 |
![]() |
billie class · 将列中的值重写为列表中的下一个值 2 年前 |