代码之家  ›  专栏  ›  技术社区  ›  Mohamed Thasin ah

大熊猫连续重复发生的分组方法

  •  4
  • Mohamed Thasin ah  · 技术社区  · 6 年前

    我有一个数据框架,包含两列[名称,in.cl]。我想按名称分组,但它是基于连续发生的。例如,考虑下面的数据帧,

    在df下生成的代码:

    df=pd.DataFrame({'Name':['A','B','B','A','A','B','C','C','C','B','C'],'In.Cl':[2,1,5,2,4,2,3,1,8,5,7]})
    

    输入:

        In.Cl Name
    0       2    A
    1       1    B
    2       5    B
    3       2    A
    4       4    A
    5       2    B
    6       3    C
    7       1    C
    8       8    C
    9       5    B
    10      7    C
    

    我想将它连续重复的行分组。示例组[B](1,2)、[A](3,4)、[C](6,8)等,并在in.cl列中执行求和操作。

    预期输出:

        In.Cl Name col1   col2
    0       2    A   A(1)    2
    1       1    B   B(2)    6
    2       5    B   B(2)    6
    3       2    A   A(2)    6
    4       4    A   A(2)    6
    5       2    B   B(1)    2
    6       3    C   C(3)   12
    7       1    C   C(3)   12
    8       8    C   C(3)   12
    9       5    B   B(1)    5
    10      7    C   C(1)    7
    

    到目前为止,我尝试了复制和Groupby的组合,但效果并不像我预期的那样好。我想我需要一些东西Groupby+连续。但我没有办法解决这个问题。

    任何帮助都将不胜感激。

    2 回复  |  直到 6 年前
        1
  •  4
  •   MaxU - stand with Ukraine    6 年前
    In [37]: g = df.groupby((df.Name != df.Name.shift()).cumsum())
    
    In [38]: df['col1'] = df['Name'] + '(' + g['In.Cl'].transform('size').astype(str) + ')'
    
    In [39]: df['col2'] = g['In.Cl'].transform('sum')
    
    In [40]: df
    Out[40]:
       Name  In.Cl  col1  col2
    0     A      2  A(1)     2
    1     B      1  B(2)     6
    2     B      5  B(2)     6
    3     A      2  A(2)     6
    4     A      4  A(2)     6
    5     B      2  B(1)     2
    6     C      3  C(3)    12
    7     C      1  C(3)    12
    8     C      8  C(3)    12
    9     B      5  B(1)     5
    10    C      7  C(1)     7
    
        2
  •  2
  •   jpp    6 年前

    有点冗长的回答 itertools.groupby .

    对于大于~1000行,请使用 @MaxU's solution -速度更快。

    from itertools import groupby, chain
    from operator import itemgetter
    
    chainer = chain.from_iterable
    
    def sumfunc(x):
        return (sum(map(itemgetter(1), x)), len(x))
    
    grouper = groupby(zip(df['Name'], df['In.Cl']), key=itemgetter(0))
    summer = [sumfunc(list(j)) for _, j in grouper]
    
    df['Name'] += pd.Series(list(chainer(repeat(j, j) for i, j in summer))).astype(str)
    df['col2'] = list(chainer(repeat(i, j) for i, j in summer))
    
    print(df)
    
        In.Cl Name  col2
    0       2   A1     2
    1       1   B2     6
    2       5   B2     6
    3       2   A2     6
    4       4   A2     6
    5       2   B1     2
    6       3   C3    12
    7       1   C3    12
    8       8   C3    12
    9       5   B1     5
    10      7   C1     7