1
1
不需要单独解压缩文件。直接读取gzip文件的唯一问题是您的读取不会被并行化。这意味着,不管文件大小,每个文件只能有一个分区,因为
如果单个文件大于特定大小(2GB?),则可能会遇到问题。因为spark的分区大小有一个上限。 除此之外,您的代码在功能上看起来还不错。 |
Bruno Peixoto · Spark群集CI管道构建失败 1 年前 |
mcsilvio · 在foreach中组织联接的最佳方式是什么? 1 年前 |
Dhruv · 在sbt控制台上运行Spark 1 年前 |
Leonard · Pyspark:JSON到Pyspark数据帧 1 年前 |
billie class · 将列中的值重写为列表中的下一个值 2 年前 |