代码之家 › 专栏 › 技术社区 › Mohamed Thasin ah

大熊猫连续重复发生的分组方法

pandas-groupby dataframe pandas python

Mohamed Thasin ah · 技术社区 · 6 年前

我有一个数据框架,包含两列[名称,in.cl]。我想按名称分组,但它是基于连续发生的。例如,考虑下面的数据帧,

在df下生成的代码:

df=pd.DataFrame({'Name':['A','B','B','A','A','B','C','C','C','B','C'],'In.Cl':[2,1,5,2,4,2,3,1,8,5,7]})

输入:

    In.Cl Name
0       2    A
1       1    B
2       5    B
3       2    A
4       4    A
5       2    B
6       3    C
7       1    C
8       8    C
9       5    B
10      7    C

我想将它连续重复的行分组。示例组[B](1,2)、[A](3,4)、[C](6,8)等,并在in.cl列中执行求和操作。

预期输出:

    In.Cl Name col1   col2
0       2    A   A(1)    2
1       1    B   B(2)    6
2       5    B   B(2)    6
3       2    A   A(2)    6
4       4    A   A(2)    6
5       2    B   B(1)    2
6       3    C   C(3)   12
7       1    C   C(3)   12
8       8    C   C(3)   12
9       5    B   B(1)    5
10      7    C   C(1)    7

到目前为止,我尝试了复制和Groupby的组合,但效果并不像我预期的那样好。我想我需要一些东西Groupby+连续。但我没有办法解决这个问题。

任何帮助都将不胜感激。

2 回复 | 直到 6 年前

MaxU - stand with Ukraine 6 年前

In [37]: g = df.groupby((df.Name != df.Name.shift()).cumsum())

In [38]: df['col1'] = df['Name'] + '(' + g['In.Cl'].transform('size').astype(str) + ')'

In [39]: df['col2'] = g['In.Cl'].transform('sum')

In [40]: df
Out[40]:
   Name  In.Cl  col1  col2
0     A      2  A(1)     2
1     B      1  B(2)     6
2     B      5  B(2)     6
3     A      2  A(2)     6
4     A      4  A(2)     6
5     B      2  B(1)     2
6     C      3  C(3)    12
7     C      1  C(3)    12
8     C      8  C(3)    12
9     B      5  B(1)     5
10    C      7  C(1)     7

jpp 6 年前

有点冗长的回答 itertools.groupby .

对于大于~1000行,请使用 @MaxU's solution -速度更快。

from itertools import groupby, chain
from operator import itemgetter

chainer = chain.from_iterable

def sumfunc(x):
    return (sum(map(itemgetter(1), x)), len(x))

grouper = groupby(zip(df['Name'], df['In.Cl']), key=itemgetter(0))
summer = [sumfunc(list(j)) for _, j in grouper]

df['Name'] += pd.Series(list(chainer(repeat(j, j) for i, j in summer))).astype(str)
df['col2'] = list(chainer(repeat(i, j) for i, j in summer))

print(df)

    In.Cl Name  col2
0       2   A1     2
1       1   B2     6
2       5   B2     6
3       2   A2     6
4       4   A2     6
5       2   B1     2
6       3   C3    12
7       1   C3    12
8       8   C3    12
9       5   B1     5
10      7   C1     7

推荐文章

user1245262 · 筛选Pandas数据帧时出现问题

1 年前

Foroand · 熊猫数据帧中的词频计数耗时过长

1 年前

user14696236 · 如何为每个对应的列创建一行[重复]

2 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

Karim Abou El Naga · 将带字符串的DataFrame绘制到堆叠条形图中

2 年前

The Great · 拆分并存储数据帧,但名称基于特定列中的唯一值

2 年前

nickolakis · 基于R中的列名复制列

2 年前

opposity · 形成一个数据帧,该数据帧包含R中包含类别和子类别的列

2 年前

A. Handler · 有没有办法将数据帧的列与完整列名向量相匹配?

2 年前

JasonX · 运行减法计算

2 年前