代码之家 › 专栏 › 技术社区 › Thomas Speidel

Dplyr根据条件总结多个列

tidyverse dplyr group-by r

Thomas Speidel · 技术社区 · 6 年前

我有这样一个数据集:

df.in <-structure(list(id = c(1, 1, 2, 3), x1 = c(0, 1, NA, 0), x2 = c("Lorem ipsum dolor sit amet", 
                                                                    "dolore eu fugiat nulla pariatur", "Sed ut perspiciatis unde omnis", 
                                                                    "Nemo enim ipsam voluptatem"), x3 = c("Donec ullamcorper elit quis risus", 
                                                                                                          "Donec ullamcorper elit quis risus", "Curabitur euismod", "Mauris felis orci"
                                                                    )), row.names = c(NA, -4L), class = c("tbl_df", "tbl", "data.frame"
                                                                    ))

> df.in
# A tibble: 4 x 4
     id    x1 x2                              x3                               
  <dbl> <dbl> <chr>                           <chr>                            
1     1     0 Lorem ipsum dolor sit amet      Donec ullamcorper elit quis risus
2     1     1 dolore eu fugiat nulla pariatur Donec ullamcorper elit quis risus
3     2    NA Sed ut perspiciatis unde omnis  Curabitur euismod                
4     3     0 Nemo enim ipsam voluptatem      Mauris felis orci

dplyr::group_by() 要获得此信息:

df.out <- structure(list(id = c(1, 2, 3), x1 = c(1, NA, 0), x2 = c("dolore eu fugiat nulla pariatur", 
                                                                   "Sed ut perspiciatis unde omnis", "Nemo enim ipsam voluptatem"
), x3 = c("Donec ullamcorper elit quis risus", "Curabitur euismod", 
          "Mauris felis orci")), row.names = c(NA, -3L), class = c("tbl_df", 
                                                                   "tbl", "data.frame"))

> df.out
# A tibble: 3 x 4
     id    x1 x2                              x3                               
  <dbl> <dbl> <chr>                           <chr>                            
1     1     1 dolore eu fugiat nulla pariatur Donec ullamcorper elit quis risus
2     2    NA Sed ut perspiciatis unde omnis  Curabitur euismod                
3     3     0 Nemo enim ipsam voluptatem      Mauris felis orci

我能做到:

df.in %>%
  group_by(id) %>%
  summarise(x1 = max(x1))

但是,如何:

x2 , x3 保持价值在哪里 max(x1)
我有好几个 x summarize_all ?

1 回复 | 直到 6 年前

akrun 6 年前

我们可以用 max summarise_at

library(dplyr)
df.in %>% 
  group_by(id) %>% 
  summarise_at(3:4, funs(if(n() == 1) . else .[x1 == max(x1, na.rm = TRUE)]))

而不是使用 总结 filter slice 也

df.in %>%
  group_by(id) %>% 
  filter((n() == 1) | (x1 == max(x1, na.rm = TRUE)))

片

df.in %>% 
  group_by(id) %>% 
  slice(which(n() == 1 | (x1 == max(x1, na.rm = TRUE)))[1])

推荐文章

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

buzz · 在dplyr包中,可以根据不同列中的值对列进行变异吗

2 年前

Artur Vidaurre de Almeida · 用R列中的下一个值替换NA值

2 年前

Rich · 如何通过比较R中的两列来计算不同的值?

2 年前

J.Sabree · case\u when在使用group by时忽略一些参数

2 年前

cigarettes_after_text · 有没有一种方法可以更高效地将其写入单个Dplyr语句?

2 年前

Melderon · 将dplyr转换命令转换为基R函数

2 年前

Rafael Peixoto · 熊猫有什么类似于dplyr的“列表列”的吗

2 年前

awoj · 使用pivot\u wider()时修改列名顺序

2 年前

John Thomas · 使用tidyverse/dplyr[duplicate]创建虚拟变量作为计数

2 年前