代码之家 › 专栏 › 技术社区 › Markus

在使用df.cache()之后是否必须使用df.unpersist()?[副本]

apache-spark-sql apache-spark scala

Markus · 技术社区 · 6 年前

这个问题已经有了答案:

必须使用吗 df.unpersist() 使用后 df.cache() 释放缓存内存? 如果我将数据帧存储在缓存中而不进行反持久化,那么代码运行得很快。但是,当我使用 df.unpersist()。 .

1 回复 | 直到 6 年前

stefanobaghino 6 年前

它不是 强制性的 但是,如果您有一个长期的发展,并且您希望释放不再需要的资源,那么强烈建议您这样做。无论如何,Spark会在LRU基础上为您管理这些;引自 the docs :

spark会自动监视每个节点上的缓存使用情况,并以最近使用的方式删除旧的数据分区。

这个 unpersist 方法 does this by default 但是考虑到你可以 不坚定的 通过使用 blocking = false 参数。

df.unpersist(false) // unpersists the Dataframe without blocking

这个 不坚定的 方法已记录在案 here 对于火花2.3.0。

推荐文章

srinath tripuraneni · {DataFrameWriter CSV到HDFS文件系统}不分区写入数据

2 年前

Calcutta · Google Colab中的Spark SQL在大数据上失败

2 年前

Palkin Jangra · 使用循环在Pyspark数组元素上和元素本身内迭代两次

2 年前

Doraemon · PySpark:使用不同值的字符串类型列创建聚合列

2 年前

amol visave · spark作业失败时会发生什么?

3 年前

Alex Jolly · 如何在另一个pyspark数据帧中查询开始时间和结束时间之间的日期时间

3 年前

chun · pyspark dataframe在s3中两次写入csv文件

3 年前

Mod_x · 如何将特定列的行标题更改为行标题,并在pySpark中生成矩阵?

3 年前

katty · 动态地将参数传递给scala中的函数

6 年前

Abhishek Choudhary · 如何更新数组列?

6 年前