代码之家 › 专栏 › 技术社区 › Alexander Engelhardt

如何避免在Spark数据帧中多次执行相同的转换?

pyspark-sql pyspark apache-spark

Alexander Engelhardt · 技术社区 · 6 年前

我有一个原始的火花数据帧 DF . 让我们假设一个简单的场景,在这个场景中,我想用几种方法对它进行预处理和转换,然后最后绘制两个图。

DF = spark.read.csv('foo.csv')
DF = preprocess(DF)

result_1 = some_aggregations(DF).toPandas()
result_2 = some_different_aggregations(DF).toPandas()

现在,如果我理解正确,例如 the accepted answer here

0 回复 | 直到 6 年前

推荐文章

Leonard · Pyspark:JSON到Pyspark数据帧

1 年前

Fran Arenas · Pyspark collect()方法在Pycharm或控制台中执行测试时给出了不同的顺序

2 年前

titutubs · 有没有一种更有效的方法来为Databricks SQL中的bin值编写代码?

2 年前

markwatson · AWS Glue:如何在输出中添加具有源文件名的列?

6 年前

juamd · 顺序(k,<元组>)RDD

6 年前

Gaurav Gupta · 如何加载多行记录的CSV文件?

6 年前

Jared · 如何在本地模式下运行的pyspark中读取S3?

6 年前

ka_boom · 在pyspark中链接多个groupBy

6 年前

ds_user · 在apache spark中复制记录计数

6 年前

ds_user · 结合类型和子类型的Apache Spark组

6 年前