代码之家 › 专栏 › 技术社区 › user96564

通过groupby计算平均值,删除一些带有布尔条件的行,然后以原始格式保存文件

dataframe pandas python

user96564 · 技术社区 · 6 年前

我有这样的数据。

我计算每个身份证的平均数

df.groupby(['ID'], as_index= False)['A'].mean()

现在,我想删除那些平均值大于3的id

df.drop(df[df.A > 3].index)

就在这里,我累了。我想保存的文件,但在原始格式(没有分组和没有平均值)和没有那些ID的平均值超过3。你知道我怎样才能做到这一点吗?输出类似这样的内容。另外,我想知道在使用drop时删除了多少唯一的id。

2 回复 | 直到 6 年前

jezrael 6 年前

使用 transform 对于 Series 与原尺寸相同 DataFrame ,因此可以根据 > 3 到 <=3 通过 boolean indexing :

df1 = df[df.groupby('ID')['A'].transform('mean') <= 3]
print (df1)

   ID  A
0   1  2
1   1  3
2   1  1
6   3  6
7   3  1
8   3  1
9   3  1

细节 :

print (df.groupby('ID')['A'].transform('mean'))

0    2.000000
1    2.000000
2    2.000000
3    6.666667
4    6.666667
5    6.666667
6    2.250000
7    2.250000
8    2.250000
9    2.250000
Name: A, dtype: float64

print (df.groupby('ID')['A'].transform('mean') <= 3)

0     True
1     True
2     True
3    False
4    False
5    False
6     True
7     True
8     True
9     True
Name: A, dtype: bool

Scott Boston 6 年前

另一个解决方案使用 groupby 和 filter . 此解决方案比使用带有布尔索引的转换要慢。

df.groupby('ID').filter(lambda x: x['A'].mean() < 3)

输出:

推荐文章

Mainland · Python数据帧规范化值错误:列的长度必须与键相同

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前

Gtoth · 如何分割Pandas DataFrame中包含多个日期的两个时间戳之间的差异

1 年前

Domarius · 使用loc为多行设置多列值

1 年前

Swastik Bhattacharyya · 如何在同一类别类型的多列上运行get_dummies()函数?

1 年前

DrZoidberg09 · 如何在字典列表中创建一个新关键字,该关键字是另一个关键字的总和?

1 年前

armstrong3701 · 如何有效地处理熊猫数据框中缺失的数据并计算条件统计?

1 年前

msts1906 · 大熊猫向乳胶的适当多品种出口

1 年前