![]() |
1
1
读取当年父目录分区的直接文件路径应该足以让dataframe确定其下是否有分区。但是,如果没有目录结构,它将不知道如何命名分区
因此,如果您有配置单元,那么通过元存储将更好,因为分区在那里命名,配置单元存储关于您的表的额外有用信息,并且您不依赖于从Spark代码知道磁盘上文件的直接路径。 但是,不确定为什么您认为需要读/写SQL。
|
![]() |
2
0
您的数据不是以最适合拼花地板的方式存储的,因此您必须逐个加载文件并添加日期 或者,您可以将文件移动到适合拼花地板的目录结构 然后,您可以读取父目录(表)并按年份、月份和日期进行筛选(spark将只读取相关目录),您还可以在数据框中获取这些属性 |
![]() |
Bruno Peixoto · Spark群集CI管道构建失败 1 年前 |
![]() |
mcsilvio · 在foreach中组织联接的最佳方式是什么? 1 年前 |
![]() |
Dhruv · 在sbt控制台上运行Spark 1 年前 |
![]() |
Leonard · Pyspark:JSON到Pyspark数据帧 1 年前 |
![]() |
billie class · 将列中的值重写为列表中的下一个值 2 年前 |