代码之家 › 专栏 › 技术社区 › Enrique Benito Casado

Databricks Pyspark写入增量格式模式覆盖无法正常工作

delta-lake databricks

Enrique Benito Casado · 技术社区 · 7 月前

我有以下代码

以前我有一个三角表 180 中的列 my_path ,我选择一列并尝试覆盖

    columns_to_select = ["one_column"]
    df_one_column = df.select(*columns_to_select)
    df_one_column.write.format("delta").mode("overwrite").option("mergeSchema", "true").save(my_path)
    
    new_schema = spark.read.format("delta").load(my_path).schema
    target_column = [field.name for field in new_schema.fields]
    print(len(target_column)) # return 180

我希望返回1,因为我只从数据框中选择了一列,但返回了180列

1 回复 | 直到 7 月前

Sharma 7 月前

你需要使用 option("overwriteSchema", "True") 写作时

以下是示例

df.write.format("delta").mode("overwrite").save(my_path)
df_first = spark.read.format("delta").load(my_path)
print(df_first.columns, len(df_first.columns))

columns_to_select = ["firstname"]
df_one_column = df.select(*columns_to_select)
df_one_column.write.format("delta").mode("overwrite").option("overwriteSchema", "True").option("mergeSchema", "true").save(my_path) 
df_second = spark.read.format("delta").load(my_path)
print(df_second.columns, len(df_second.columns))

oversiteSchema: https://docs.databricks.com/en/delta/update-schema.html#explicitly-update-schema-to-change-column-type-or-name

推荐文章

titutubs · 有没有一种更有效的方法来为Databricks SQL中的bin值编写代码?

2 年前

Kertis van Kertis · Pyspark多标签文本分类

6 年前

oharr · 在databricks spark中加载json文件,然后遍历json列表

6 年前

Naim · 为什么Pyspark在将数据帧导出到csv或txt文件时需要类型basestring?

6 年前

vikash · scala中数组上的Distinct返回空字符串

6 年前

Data_101 · 如何将pyspark数据帧分为两行

7 年前

Data_101 · 使用PySpark删除和替换字符

7 年前

sjishan · Pyspark:读取对象之间没有分隔符的JSON数据文件

7 年前

user3521180 · 通过Spark将csv文件加载到现有配置单元中

7 年前

frb · 以编程方式将Databricks spark csv添加到spark 1.6.2客户端

7 年前