代码之家 › 专栏 › 技术社区 › Laurynas G

使用groupby在另一列上使用条件聚合行上的列

aggregate-functions group-by pyspark

Laurynas G · 技术社区 · 4 年前

假设我有以下Pyspark数据帧:

 Country    Direction    Quantity     Price
 Belgium    In           5            10
 Belgium    Out          2            8
 Belgium    Out          3            9
 France     In           2            3
 France     Out          3            2
 France     Out          4            3

是否可以按此数据帧按列“国家”分组,“价格”列的聚合平均值作为正常值,但对“数量”列使用函数“第一”,仅在“方向”列为“输出”时对行使用函数“第一”? 我想应该是这样的:

df.groupby("Country").agg(F.mean('Price'), F.first(F.col('Quantity').filter(F.col('Direction') == "Out")))

0 回复 | 直到 4 年前

mck 4 年前

你可以掩盖真相 Quantity 对于 Direction != 'out' 然后做一个 first 具有 ignoreNulls :

df.groupby("Country").agg(
    F.mean('Price'),
    F.first(
        F.when(
            F.col('Direction') == "Out",
            F.col('Quantity')
        ),
        ignoreNulls=True
    )
)

推荐文章

John Smith · Java按值对映射进行分组,其中值为列表

2 年前

The Great · 拆分并存储数据帧,但名称基于特定列中的唯一值

2 年前

Programming Noob · AttributeError:“SeriesGroupBy”对象没有属性“tolist”

2 年前

Flo · 分组依据中的SQL大小写

2 年前

user13663655 · 我可以使用条件分组并返回源类型值吗

2 年前

pinkiBet · 使用MAX和UNION分组,还是加入?

2 年前

Shubham · 如何在R中查找数据表的两个多类别列之间的差异/setdiff()

2 年前

user7052482 · 将来自联合的SQL结果分组(SQL Server)

6 年前

lugger1 · 如何获取Postgres中时间间隔的平均值

6 年前

JustCallMeGary · 如何使用R中的一个因子操作两个变量[重复]

6 年前