样品
:
df_temp = pd.DataFrame({'event_data':[5,3,6,9,2,4,7],
'basket':list('abbbccd')})
print (df_temp)
event_data basket
0 5 a
1 3 b
2 6 b
3 9 b
4 2 c
5 4 c
6 7 d
过滤的一般解
count
是
boolean indexing
具有
transform
返回相同
Series
具有与原始值相同大小的聚合值
df
:
df = df_temp[df_temp.groupby("basket")["event_data"].transform('count') > 1]
print (df)
event_data basket
1 3 b
2 6 b
3 9 b
4 2 c
5 4 c
折叠行
basket
列使用
duplicated
带参数
kep=False
返回所有被骗:
df = df_temp[df_temp.duplicated("basket", keep=False)]
print (df)
event_data basket
1 3 b
2 6 b
3 9 b
4 2 c
5 4 c