代码之家 › 专栏 › 技术社区 › RefiPeretz

SPARK聚合基于一列的所有列[重复]

aggregate bigdata dataframe apache-spark

RefiPeretz · 技术社区 · 6 年前

为简单起见,假设我有以下daraframe:

col X col Y col Z
A     1     5
A     2     10
A     3     10
B     5     15

我想按X列分组,并通过取Z的最小值进行聚合,但我希望Y值是最小值Z的邻接值

df.groupBy("X").agg(min("Z"), take_y_according_to_min_z("Y")

所需输出:

col X col Y col Z
A     1     5
B     5     15

注:如果有两个以上 min("Z") 我不在乎我们取哪一行。

我试着在网上找到一些干净、有火花的东西。我很清楚如何在MapReduce中做到这一点,但我在SPARK上找不到方法。

我正在研究SPARK 1.6

2 回复 | 直到 6 年前

Ramesh Maharjan 6 年前

你可以简单地做

import org.apache.spark.sql.functions._
df.select(col("Col X"), struct("Col Z", "Col Y").as("struct"))
  .groupBy("Col X").agg(min(col("struct")).as("min"))
    .select(col("Col X"), col("min.*"))

你会得到你想要的

+-----+-----+-----+
|Col X|Col Y|Col Z|
+-----+-----+-----+
|B    |5    |15   |
|A    |1    |5    |
+-----+-----+-----+

koiralo 6 年前

您可以使用 struct 与列一样 Y 和 Z 像

df.groupBy("X").agg(min(struct("Z", "Y")).as("min"))
    .select("X", "min.*")

输出:

+---+---+---+
|X  |Z  |Y  |
+---+---+---+
|B  |15 |5  |
|A  |5  |1  |
+---+---+---+

希望这有帮助1

推荐文章

Geoffrey · Pyspark:将数据帧保存到多个具有单个文件特定大小的镶木地板文件中

1 年前

Bruno Peixoto · Spark群集CI管道构建失败

1 年前

codebot · 将df从pandas转换为PySpark时会删除列名

1 年前

mcsilvio · 在foreach中组织联接的最佳方式是什么?

1 年前

Dhruv · 在sbt控制台上运行Spark

1 年前

Leonard · Pyspark:JSON到Pyspark数据帧

2 年前

billie class · 将列中的值重写为列表中的下一个值

2 年前

Calcutta · Google Colab中的Spark SQL在大数据上失败

2 年前

Doraemon · PySpark:使用不同值的字符串类型列创建聚合列

2 年前

OdiumPura · 使用JDBC(Sql server)查询tempview

2 年前