代码之家 › 专栏 › 技术社区 › thanasissdr

在熊猫聚集中应用过滤器

aggregation pandas python

thanasissdr · 技术社区 · 6 年前

假设我有以下内容 pd.DataFrame .

import pandas as pd
import numpy as np

data = {'number': [1, 1, 1, 2],  'q':[np.nan, 2, np.nan, 1], 'letter': ['alpha', 'beta', 'gamma', 'alpha']}
df = pd.DataFrame(data)

   number   q   letter
0   1      NaN   alpha
1   1      2.0   beta
2   1      NaN   gamma
3   2      1.0   alpha

我要做的是按数字聚合并创建一个包含所有字母的列表,然后根据 q .

如果我这样做:

df.groupby('number').agg({"letter": lambda w: list(w) }) 收益率:

    letter
number  
1   [alpha, beta, gamma]
2   [alpha]

但是我只想包括列,这样相应的 Q 价值不是 NaN ,即

  number    letter
0   1       [beta]
1   2       [alpha]

编辑 :我希望有一个更通用的解决方案(不仅仅是 南 值),但如果要指定 Q 作为将要包含或不包含内容的阈值。

1 回复 | 直到 6 年前

jezrael 6 年前

我认为需要 DataFrame.dropna :

df1 = df.dropna().groupby('number').agg({"letter": lambda w: list(w)})

如果需要,请为删除缺少的值指定列:

df1 = df.dropna(subset=['q']).groupby('number').agg({"letter": lambda w: list(w)})
print (df1)
         letter
number         
1        [beta]
2       [alpha]

编辑:

你也可以过滤 query :

df1 = df.query("q > 0").groupby('number').agg({"letter": lambda w: list(w)})

或 boolean indexing :

df1 = df[df['q'] > 0].groupby('number').agg({"letter": lambda w: list(w)})

df1 = df[df['q'].notnull()].groupby('number').agg({"letter": lambda w: list(w)})

Eddi1:

在函数中也可以进行过滤,以避免丢失不匹配的组:

def f(x):
    return x.loc[x['q'] > 1, 'letter'].tolist()

df2 = df.groupby('number').apply(f).reset_index(name='val')
print (df2)
   number     val
0       1  [beta]
1       2      []

df1 = df[df['q'] > 1].groupby('number').agg({"letter": lambda w: list(w)})
print (df1)
        letter
number        
1       [beta]

推荐文章

July · 如何定义数字间隔,然后四舍五入

1 年前

Community wiki · 对象名称前的单下划线和双下划线的含义是什么?

1 年前

Brian Johnson · 为什么在Python中列出字典列表会引发TypeError?[已关闭]

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

Ashok Shrestha · 需要追踪特定的颜色线并获取坐标

1 年前

Nicote Ool · 在FastApi和Vue3中获得422

1 年前

NeoExceptCodeBad · 如果我有很多垂直线,我如何找到它们的边缘?

1 年前

Abdulaziz · 如何对集合内的列表进行排序[重复]

1 年前

user2743931 · 带有src目录的Python setup.py

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前