代码之家 › 专栏 › 技术社区 › Eleanor

pandas根据具有重复分组对的列分组的指标计算差异

group-by pandas python

Eleanor · 技术社区 · 6 年前

这是一个例子。

这里,“a”是用户id,“b”是时间,“c”是产品,“k”是二进制指示符标志。对于每个c,“b”肯定是连续的,唯一对(a,b)的二进制标志“k”是相同的,这意味着它与“c”是独立的。我想得到的是:

a b k c diff_b
0 0 0 0 nan
0 1 1 0 nan
0 2 0 0 1
0 3 0 0 2
0 4 1 0 3
0 5 0 0 1
0 0 0 1 nan
0 1 1 1 nan
0 2 0 1 1
0 3 0 1 2
0 4 1 1 3
0 5 0 1 1
1 0 0 0 nan
1 1 1 0 nan
1 2 0 0 1
1 3 1 0 2
1 4 0 0 1
1 0 0 1 nan
1 1 1 1 nan
1 2 0 1 1
1 3 1 1 2
1 4 0 1 1

所以,diff是一个时差变量。它显示当前时间点和带有操作的最后时间点之间的持续时间。如果以前没有动作,则返回nan。此差异B按A分组。对于每个用户,此差异B是独立计算的,对于同一个用户但不同的产品,它也应独立于产品。

谢谢您。

1 回复 | 直到 6 年前

BENY 6 年前

您只需要在第二步将c添加到组指示符中

df['New']=df.b.loc[df.k==1]# get all value b when k equal to 1
df.New=df.groupby(['a','c']).New.apply(lambda x : x.ffill().shift()) # fillna by froward method , then we need shift.
df.b-df['New']

推荐文章

John Smith · Java按值对映射进行分组,其中值为列表

2 年前

The Great · 拆分并存储数据帧,但名称基于特定列中的唯一值

2 年前

Programming Noob · AttributeError:“SeriesGroupBy”对象没有属性“tolist”

2 年前

Flo · 分组依据中的SQL大小写

2 年前

user13663655 · 我可以使用条件分组并返回源类型值吗

2 年前

pinkiBet · 使用MAX和UNION分组,还是加入?

2 年前

Shubham · 如何在R中查找数据表的两个多类别列之间的差异/setdiff()

2 年前

user7052482 · 将来自联合的SQL结果分组(SQL Server)

6 年前

lugger1 · 如何获取Postgres中时间间隔的平均值

6 年前

JustCallMeGary · 如何使用R中的一个因子操作两个变量[重复]

6 年前