代码之家 › 专栏 › 技术社区 › Rnovice

根据[重复]列中的唯一值在R中聚合

aggregate r

Rnovice · 技术社区 · 7 年前

我有一个数据帧 df 有三列 item , store 和 week . 看起来是这样的:

 item           store         week
24128          272568         1203
25554          272568         1203
24177          272568         1203
72000          272568         1203
72001          272568         1203
24128          272568         1204
25554          272568         1204
24177          272568         1204
72000          272568         1204
72001          272568         1204
-----          ------         ----
24128          272569         1203
25554          272569         1203
24177          272569         1203
72000          272569         1203
72001          272569         1203
24128          272569         1204
25554          272569         1204
24177          272569         1204
72000          272569         1204
72001          272569         1204

我想看看每个人 项目 存在于多少 百货商店 . 我尝试了以下方法:

aggregate(store~item, data = df,FUN = "length")

和功能 summaryBy 在里面 doBy 包裹:

summaryBy(store~item,data = df,FUN = c(length))

但是,功能 length 返回的数量 百货商店 重复计算,即,它对每个 百货商店 对于每个 周 . 如何避免这种重复计算并获得唯一长度 百货商店 对于每个 项目 ?

1 回复 | 直到 7 年前

akrun 7 年前

我们需要得到 length 上 unique 元素

aggregate(store~item, data = df,FUN = function(x) length(unique(x)))

或者如果我们正在使用 dplyr

library(dplyr)
df %>%
  group_by(item) %>%
  summarise(storen = n_distinct(store))

推荐文章

Marc B. · 使用ggplot2创建条形图时“缺少值”

1 年前

deschen · tidyverse与外部向量发生突变,该外部向量的元素是数据帧中的列值

1 年前

Laura · 在Shiny中使用可排序的包拖放名称,这些名称将成为图表

1 年前

Mallikarjun M · 如何使用随机森林进行时间序列预测?

1 年前

ly li · 模型摘要:当表格形状改变时,拟合优度消失

1 年前

C.Robin · 将marginaffects::predictions()的结果连接回main df?

1 年前

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

RoyBatty · 统计每个字符在整个数据集中出现的次数

2 年前

stats_noob · R: 记录某个“行为”发生的循环的索引?

2 年前