代码之家 › 专栏 › 技术社区 › Koray Tugay

为什么count和unique的行为不同于GroupBy对象?

pandas

1

Koray Tugay · 技术社区 · 6 年前

我有以下csv文件:

col_1,col_2
foo,1
foo,1
bar,1
bar,2
baz,1
baz,1
baz,2
baz,2
qux,1
qux,2
qux,3

以及以下代码(连同输出)

print(df.groupby('col_1').count())
#        col_2
# col_1
# bar        2
# baz        4
# foo        2
# qux        3

print(df.groupby('col_1').nunique())
#        col_1  col_2
# col_1
# bar        1      2
# baz        1      2
# foo        1      1
# qux        1      3

与 nunique ,返回2列: col_1 col_2 . 为什么我打电话的时候第一列不见了 count ?

1 回复 | 直到 6 年前

1

1

Haleemur Ali 6 年前

count & nunique 是不同的功能,做不同的事情。

计数 对于每组中的每个系列。

唯一的非NA值 对于每组中的每个系列

至于为什么 努尼克 df.groupby(...).nunique()

在通常情况下,分组列被设置为索引(除非 as_index=False )在框架中作为列使用而不是复制。

行为符合预期 groupby apply/agg

不过,确实有人为其编写了测试 nunique 其中,预期输出还包括分组列作为两个列的列 as_index=True as_index=假

推荐文章

Mainland · Python数据帧规范化值错误:列的长度必须与键相同

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前

Gtoth · 如何分割Pandas DataFrame中包含多个日期的两个时间戳之间的差异

1 年前

Domarius · 使用loc为多行设置多列值

1 年前

Swastik Bhattacharyya · 如何在同一类别类型的多列上运行get_dummies()函数?

1 年前

DrZoidberg09 · 如何在字典列表中创建一个新关键字,该关键字是另一个关键字的总和?

1 年前

armstrong3701 · 如何有效地处理熊猫数据框中缺失的数据并计算条件统计?

1 年前

msts1906 · 大熊猫向乳胶的适当多品种出口

1 年前

关于移动版

代码之家 - 一站式码农服务社区

沪ICP备11025650号