代码之家 › 专栏 › 技术社区 › Geoffrey

Pyspark:将数据帧保存到多个具有单个文件特定大小的镶木地板文件中

parquet pyspark hadoop apache-spark

Geoffrey · 技术社区 · 1 年前

如何将Pyspark数据帧保存到具有特定大小的多个镶木地板文件中?

示例:我的数据帧在HDFS上使用500GB,每个文件是128MB。我想把它保存到250个镶木地板文件中,每个文件是2GB。如何存档?

0 回复 | 直到 1 年前

Ziya Mert Karakas 1 年前

在这里做一个简单的搜索总是很好的,如果这里有人问或回答,我已经可以看到几个了:

PySpark: How to specify file size when writing parquet files?

Write pyspark dataframe into specific number of parquet files in total across all partition columns

要将PySpark数据帧保存到具有特定大小的多个Parquet文件中,可以使用repartition方法将数据帧拆分为所需数量的分区,然后使用带有partitionBy选项的write方法将每个分区保存为一个单独的Parquet文件。例如,要将数据帧保存到250个Parquet文件中,每个文件的大小为2GB,可以使用以下代码:

df = df.repartition(250)
df.write.partitionBy("partition_column").parquet("hdfs:///path//")

将partition_column替换为要分区的列的名称。这将按该列组织输出文件。此语句中的partitionBy是可选的。

如果您要将分区大小减少到大于250的数字,那么您可以使用联合来避免混洗,但重新分区更好地确保您想要的输出

推荐文章

guilhermecgs · 拼花文件-具有可变频率的时间序列

7 年前

Jay · 对Pyarrows的HdfsClient使用多处理

7 年前

Yevgeni Litvin · 在spark中创建行组大小小于100的拼花地板文件

7 年前

Mark Rajcok · 如何在构建拼花cpp时静态链接箭头?

7 年前

visuman · AttributeError:LooseVersion实例没有属性“version”

7 年前

Marcel Mars · Pyspark将文件另存为parquet并读取

7 年前

Rijo Joseph · Spark读取拼花文件的问题

7 年前

user6344468 · 在读取拼花文件时,Amazon Athena无法在数组中正确保留struct的属性名称

7 年前

Martin Studer · 从拼花文件读取/写入pyarrow张量

7 年前

M80 · 通过为包含JSON的列定义模式来创建配置单元表的视图

7 年前