代码之家  ›  专栏  ›  技术社区  ›  Ged

火花塞

  •  0
  • Ged  · 技术社区  · 6 年前
    • 如果我的理解是正确的,就不能直接使用这个效果;
      • 相反,如果源/目标尚未绑定,则必须先写入bucket并再次读入。

    火花的思维方式似乎很奇怪。还是我弄错了?

    1 回复  |  直到 6 年前
        1
  •  0
  •   user10173330    6 年前

    Spark bucketing在磁盘上等同于分区(都使用特定的键和散列分区来组织数据)-如果您想“内联”这个过程,只需 repartition 你的 Dataset

    df.repartition(nPartitions, col)