代码之家 › 专栏 › 技术社区 › captcoma

具有重复观察的长数据到具有摘要列的短数据[重复]

tidyr dplyr dataframe r

captcoma · 技术社区 · 7 年前

我想转换具有重复观察的长数据集:

obs code
1    A
2    B
4    G
2    D
1    H
3    K

到一个“较短”的数据集中,其中包含一个逗号分隔的摘要列:

obs  code
1    A,H
2    B,D
3    K
4    G

我试过这样的方法:

df <- data.frame(obs=c("1","2","4","2","1","3"), code=c("A","B","G","D","H","K"),stringsAsFactors = F)


df %>% group_by(obs) %>%
  mutate(id=1:n()) %>% 
  spread(id,code) %>%
  replace_na(list(`1` = "", `2` = "")) %>%
  unite(new,2:3, remove=FALSE,sep=",")

然而,这为obs 3和4提供了额外的“”。有没有更好的方法来解决我的问题?

2 回复 | 直到 7 年前

akrun 7 年前

而不是 spread ing为“宽”格式,然后使用 replace_na ,这可以更直接地通过 paste 在中输入“代码” summarise 在 group_by 步

df %>%
  group_by(obs) %>%
  summarise(code = toString(code))

Maurits Evers 7 年前

下面是一个基本的R解决方案,使用 aggregate 作为替代方案:

with(df, aggregate(code, by = list(obs = obs), toString));
#  obs    x
#1   1 A, H
#2   2 B, D
#3   3    K
#4   4    G

如果你不想在 code s、你可以 paste0 条目(而不是使用 toString ):

with(df, aggregate(code, by = list(obs = obs), paste0, collapse = ","));
#  obs   x
#1   1 A,H
#2   2 B,D
#3   3   K
#4   4   G

推荐文章

Marc B. · 使用ggplot2创建条形图时“缺少值”

1 年前

deschen · tidyverse与外部向量发生突变,该外部向量的元素是数据帧中的列值

1 年前

Laura · 在Shiny中使用可排序的包拖放名称,这些名称将成为图表

1 年前

Mallikarjun M · 如何使用随机森林进行时间序列预测?

1 年前

ly li · 模型摘要:当表格形状改变时,拟合优度消失

1 年前

C.Robin · 将marginaffects::predictions()的结果连接回main df?

1 年前

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

RoyBatty · 统计每个字符在整个数据集中出现的次数

2 年前

stats_noob · R: 记录某个“行为”发生的循环的索引?

2 年前