代码之家 › 专栏 › 技术社区 › Marcel Mars

Pyspark将文件另存为parquet并读取

pyspark-sql parquet pyspark dataframe json

Marcel Mars · 技术社区 · 7 年前

我的 PySpark 已创建脚本保存 DataFrame 到目录:

df.write.save(full_path, format=file_format, mode=options['mode'])

如果我在同一次运行中读取此文件,则一切正常:

return sqlContext.read.format(file_format).load(full_path)

但是,当我在另一个脚本运行中尝试从该目录读取文件时,我收到一个错误:

java.io.FileNotFoundException: File does not exist: /hadoop/log_files/some_data.json/part-00000-26c649cb-0c0f-421f-b04a-9d6a81bb6767.json

我知道我可以通过Spark的提示找到一个解决方案:

It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.

然而,我想知道我失败的原因,什么是解决这样一个问题的正统方法?

1 回复 | 直到 7 年前

Joe9008 5 年前

您正试图管理与同一文件相关的两个对象,因此涉及该对象的缓存将给您带来问题,它们都针对同一文件。这里有一个简单的解决方案,

https://stackoverflow.com/a/60328199/5647992

推荐文章

Kevin Smeeks · Pyspark JDBC分区读取

5 月前

user3579222 · 阅读以前的Spark API

5 月前

Danylo Kuznetsov · 如何在PySpark Rancher中将DataFrame转换为整数?

6 月前

JFlo · 在PySpark笔记本中读取多个Parquet文件

6 月前

Matthew Thomas · partition覆盖动态和“逻辑”分区

10 月前

lenpyspanacb · 在Pyspark中计算重复次数

10 月前

Jamal Khan · 如何在Apache Spark中读取500 GB的大文件CSV文件并对其执行聚合?

11 月前

Jamal Khan · 我们如何在Apache Spark中实现CDC(变更数据捕获)?

11 月前

maximodesousadias · 如何根据条件删除日期后的记录

11 月前

Joe Bloggr · 如何将Dataframe类型的函数参数传递给SparkSQL查询

1 年前