代码之家 › 专栏 › 技术社区 › werner

在写入和重新读取拼花文件时保留数据帧分区

parquet apache-spark

werner · 技术社区 · 6 年前

当我将定义了分区的数据帧作为parquet文件写入磁盘,然后重新读取parquet文件时,分区就丢失了。有没有办法在写和重读期间保留数据帧的原始分区?

示例代码

//create a dataframe with 100 partitions and print the number of partitions
val originalDf = spark.sparkContext.parallelize(1 to 10000).toDF().repartition(100)
println("partitions before writing to disk: " + originalDf.rdd.partitions.length)

//write the dataframe to a parquet file and count the number of files actually written to disk
originalDf.write.mode(SaveMode.Overwrite).parquet("tmp/testds")
println("files written to disk: " + new File("tmp/testds").list.size)

//re-read the parquet file into a dataframe and print the number of partitions 
val readDf = spark.read.parquet("tmp/testds")
println("partitions after reading from disk: " + readDf.rdd.partitions.length)

partitions before writing to disk: 100
files written to disk: 202
partitions after reading from disk: 4

第一个数字是预期的结果,数据帧由100个分区组成
第二个数字在我看来也不错:我得到100分 *.parquet 文件,100 *.parquet.crc _SUCCESS 文件,所以拼花文件仍然由100个分区组成
第三行显示再次读取拼花文件后,原始分区将丢失,并且读取拼花文件后的分区数量将更改。分区的数量与Spark集群的执行器的数量有关
无论我将拼花文件写入本地磁盘还是Hdfs存储,结果都是一样的
readDf 我可以在SparkUI中看到在调用时创建了四个任务 foreachPartition 该函数执行四次

有没有一种方法可以保留数据帧的原始分区而不调用 repartition(100)

背景 :在我的实际应用程序中,我使用经过仔细调整的分区编写了许多不同的数据集,我希望还原这些分区,而不必为每个数据帧单独记录将分区写入磁盘时分区的样子。

我正在使用Spark 2.3.0。

更新 :Spark 2.4.6和3.0.0的结果相同

0 回复 | 直到 4 年前

推荐文章

Geoffrey · Pyspark:将数据帧保存到多个具有单个文件特定大小的镶木地板文件中

1 年前

Bruno Peixoto · Spark群集CI管道构建失败

1 年前

codebot · 将df从pandas转换为PySpark时会删除列名

1 年前

mcsilvio · 在foreach中组织联接的最佳方式是什么?

2 年前

Dhruv · 在sbt控制台上运行Spark

2 年前

Leonard · Pyspark:JSON到Pyspark数据帧

2 年前

billie class · 将列中的值重写为列表中的下一个值

2 年前

Calcutta · Google Colab中的Spark SQL在大数据上失败

3 年前

Doraemon · PySpark:使用不同值的字符串类型列创建聚合列

3 年前

OdiumPura · 使用JDBC(Sql server)查询tempview

3 年前