![]() |
1
0
在这里做一个简单的搜索总是很好的,如果这里有人问或回答,我已经可以看到几个了: PySpark: How to specify file size when writing parquet files? Write pyspark dataframe into specific number of parquet files in total across all partition columns 要将PySpark数据帧保存到具有特定大小的多个Parquet文件中,可以使用repartition方法将数据帧拆分为所需数量的分区,然后使用带有partitionBy选项的write方法将每个分区保存为一个单独的Parquet文件。例如,要将数据帧保存到250个Parquet文件中,每个文件的大小为2GB,可以使用以下代码:
将partition_column替换为要分区的列的名称。这将按该列组织输出文件。此语句中的partitionBy是可选的。 如果您要将分区大小减少到大于250的数字,那么您可以使用联合来避免混洗,但重新分区更好地确保您想要的输出 |
![]() |
guilhermecgs · 拼花文件-具有可变频率的时间序列 7 年前 |
![]() |
Jay · 对Pyarrows的HdfsClient使用多处理 7 年前 |
![]() |
Mark Rajcok · 如何在构建拼花cpp时静态链接箭头? 7 年前 |
![]() |
Rijo Joseph · Spark读取拼花文件的问题 7 年前 |
![]() |
Martin Studer · 从拼花文件读取/写入pyarrow张量 7 年前 |
![]() |
M80 · 通过为包含JSON的列定义模式来创建配置单元表的视图 7 年前 |