代码之家 › 专栏 › 技术社区 › Max Power

Groupby dataframe生成包含不同组和计数的单个列表列

pandas python

Max Power · 技术社区 · 2 年前

仍在努力思考如何恰当地描述这一点(这将更新问题),但以下是我的建议 have / want 我尝试做的最小、可复制的例子。

have = pd.DataFrame({'id': [1,1,1,2,2], 'grp': ['a', 'b', 'c', 'd', 'e'], 'val': [5,4,3,2,1]})
>>> have
   id grp  val
0   1   a    5
1   1   b    4
2   1   c    3
3   2   d    2
4   2   e    1

want = pd.DataFrame({'id': [1,2], 'results': [[('a', 5), ('b', '4'), ('c', 3)], [('d',2), ('e',1)]]})

>>> want
   id                   results
0   1  [(a, 5), (b, 4), (c, 3)]
1   2          [(d, 2), (e, 1)]

3 回复 | 直到 2 年前

Ynjxsjmh 2 年前

你可以试试群比 id 列,然后将 grp 和 val 柱

out = (have.groupby('id')
       .apply(lambda g: list(zip(g['grp'], g['val'])))
       .rename('result')
       .reset_index())

print(out)

   id                    result
0   1  [(a, 5), (b, 4), (c, 3)]
1   2          [(d, 2), (e, 1)]

如果要将两个以上的列压缩到元组列表中,还可以使用 df.itertuples 但是 df.to_records 在别人的回答中引用也可以。

out = (have.groupby('id')
       .apply(lambda g: list(g[['grp', 'val']].itertuples(index=False)))
       .rename('result')
       .reset_index())

打印(输出)

01[(a,5)、(b,4)、(c,3)]
12[(d,2)、(e,1)]

Ch3steR 2 年前

将数据作为列表元组的一种方法是使用 df.to_records 然后 groupby.agg .

have.assign(
    res=have[["grp", "val"]].to_records(index=False).tolist()
).groupby("id", as_index=False)["res"].agg(list)


#    id                       res
# 0   1  [(a, 5), (b, 4), (c, 3)]
# 1   2          [(d, 2), (e, 1)]

Ch3steR 2 年前

你可以使用:

want = (have
 .assign(result=have[['grp','val']].agg(tuple, 1))
 .groupby('id')['result']
 .agg(list).reset_index()
 )

推荐文章

Mainland · Python数据帧规范化值错误:列的长度必须与键相同

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前

Gtoth · 如何分割Pandas DataFrame中包含多个日期的两个时间戳之间的差异

1 年前

Domarius · 使用loc为多行设置多列值

1 年前

Swastik Bhattacharyya · 如何在同一类别类型的多列上运行get_dummies()函数?

1 年前

DrZoidberg09 · 如何在字典列表中创建一个新关键字,该关键字是另一个关键字的总和?

1 年前

armstrong3701 · 如何有效地处理熊猫数据框中缺失的数据并计算条件统计?

1 年前

msts1906 · 大熊猫向乳胶的适当多品种出口

1 年前