代码之家  ›  专栏  ›  技术社区  ›  Alexander Engelhardt

如何避免在Spark数据帧中多次执行相同的转换?

  •  0
  • Alexander Engelhardt  · 技术社区  · 6 年前

    我有一个原始的火花数据帧 DF . 让我们假设一个简单的场景,在这个场景中,我想用几种方法对它进行预处理和转换,然后最后绘制两个图。

    DF = spark.read.csv('foo.csv')
    DF = preprocess(DF)
    
    result_1 = some_aggregations(DF).toPandas()
    result_2 = some_different_aggregations(DF).toPandas()
    

    现在,如果我理解正确,例如 the accepted answer here

    • preprocess(DF)
    • 缺点是 预处理(DF) 正在运行 两次 -一次 result_1 ,一次为 result_2 .

    0 回复  |  直到 6 年前