代码之家 › 专栏 › 技术社区 › Prasanna Saraswathi Krishnan

PySpark-分区中覆盖的数据

hive-partitions spark-dataframe pyspark

Prasanna Saraswathi Krishnan · 技术社区 · 6 年前

我看到了这样一种情况:当将pyspark数据帧保存到具有多列分区的配置单元表时,它也会覆盖子分区中的数据。或者-可能是我假设它是一个子分区。

我想将“月”列视为子分区。这样,当我将df2保存到同一个表时,可以看到4条记录(在配置单元表中),而不是2条记录。

mode=append 将起作用。但是,如果年&月份相同,我希望数据被覆盖。在保存pyspark数据帧时,有没有办法做到这一点?

>>> df1 = spark.sql('select * from test_input')
>>> df1.show()
+---+---+----+-----+
| f1| f2|year|month|
+---+---+----+-----+
|  a|  b|2018|   01|
|  c|  d|2018|   01|
+---+---+----+-----+

>>> df1.write.saveAsTable('test_output',mode='overwrite',partitionBy=('year','month'))
>>> spark.sql('select * from test_output').show()
+---+---+----+-----+
| f1| f2|year|month|
+---+---+----+-----+
|  a|  b|2018|   01|
|  c|  d|2018|   01|
+---+---+----+-----+

>>> df2 = spark.sql('select * from test_input')
>>> df2.show()
+---+---+----+-----+
| f1| f2|year|month|
+---+---+----+-----+
|  a|  b|2018|   02|
|  c|  d|2018|   02|
+---+---+----+-----+

>>> df2.write.saveAsTable('test_output',mode='overwrite',partitionBy=('year','month'))
>>> spark.sql('select * from test_output').show()
+---+---+----+-----+
| f1| f2|year|month|
+---+---+----+-----+
|  a|  b|2018|   02|
|  c|  d|2018|   02|
+---+---+----+-----+

1 回复 | 直到 6 年前

Kirk Broadhurst 6 年前

似乎您误解了分区的概念。

这不是SQL语句中会遇到的窗口函数分区;相反,它指的是在内存或文件系统中存储和引用数据的方式。 Here's a helpful introduction.

更改Spark数据帧的分区将从不更改该数据帧中的行数。

推荐文章

hotmeatballsoup · 火花2。x数据帧或数据集?[副本]

6 年前

Atharv Thakur · 在scala spark中更改日期格式后,列的值会更改

6 年前

Chaouki · 如何从Spark数据帧中的数组中获取统计信息?

6 年前

lpgad · JAVAlang.IllegalArgumentException:无法获取数组<字符串>

6 年前

Hemanth Gowda · 编码器的使用速度如何比java序列化快得多?

6 年前

ds_user · 在apache spark中复制记录计数

6 年前

Masterbuilder · 使用窗口函数将前一行与当前行相加

6 年前

Prasanna Saraswathi Krishnan · 检查Pyspark数据帧中是否存在重复项

6 年前

Rahul Kumar · 将一个数据帧中的各个值与另一个数据帧中的值进行映射

6 年前

YOLO · groupby并使用pyspark将多列转换为列表

6 年前