代码之家  ›  专栏  ›  技术社区  ›  MaatDeamon

spark.sql.shuffle.partitions到底指什么?

  •  0
  • MaatDeamon  · 技术社区  · 6 年前

    到底是什么 spark.sql.shuffle.partitions 指什么?我们说的是宽变换的结果分区的数量,还是在中间发生的事情,比如在宽变换的结果分区之前的某种中间分区?

    Parents RDDs -> shuffle files -> Child RDDs
    

    洗牌文件 或者 或者其他我忽略的东西?

    1 回复  |  直到 3 年前
        1
  •  1
  •   vinsce user10407081    3 年前

    这已经在中解释过了 the official docs

    spark.sql.shuffle.partitions 200配置为联接或聚合洗牌数据时要使用的分区数。

    换句话说,它是子对象的分区数 Dataset