代码之家 › 专栏 › 技术社区 › elliot

使用dplyr添加基于最大行值的新列?

mutate dplyr r

elliot · 技术社区 · 6 年前

我有一个大型数据库,它有一系列带有数字的列。我想用 dplyr 要添加新列, mutate ,其值为具有最大值的列的名称。下面的例子

set.seed(123)
data_frame(
  bob = rnorm(10),
  sam = rnorm(10),
  dick = rnorm(10)
    )
# A tibble: 5 x 3
      bob    sam   dick
    <dbl>  <dbl>  <dbl>
1 -0.560   1.72   1.22 
2 -0.230   0.461  0.360
3  1.56   -1.27   0.401
4  0.0705 -0.687  0.111
5  0.129  -0.446 -0.556

新列将等于c('sam','sam','bob','dick','bob'),因为它们具有数据集中列的最大值。有什么想法吗?

3 回复 | 直到 6 年前

Gregor Thomas 6 年前

这很好:

df$result = names(df)[apply(df, 1, which.max)]

Nettle 6 年前

更冗长,但整洁友好:

df %>% 
  #tidying
    mutate(id = row_number()) %>% 
    gather(name, amount, -id) %>% 
    group_by(id) %>%  arrange(id, desc(amount)) %>% 
  #workhorse
    mutate(top.value = head(name, 1) ) %>% 
  #Pivot
    spread(name, amount)

   # A tibble: 10 x 5
# Groups:   id [10]
      id top.value     bob   dick    sam
   <int> <chr>       <dbl>  <dbl>  <dbl>
 1     1 sam       -0.560  -1.07   1.22 
 2     2 sam       -0.230  -0.218  0.360
 3     3 bob        1.56   -1.03   0.401
 4     4 sam        0.0705 -0.729  0.111
 5     5 bob        0.129  -0.625 -0.556
 6     6 sam        1.72   -1.69   1.79 
 7     7 dick       0.461   0.838  0.498
 8     8 dick      -1.27    0.153 -1.97 
 9     9 sam       -0.687  -1.14   0.701
10    10 dick      -0.446   1.25  -0.473

如果您不想使用整洁的数据,请尝试:

df %>% 
  mutate(max.name = names(.)[max.col(.)]  )

PavoDive 6 年前

一 data.table

require(data.table)
setDT(df)
df[, m := names(df)[apply(.SD, 1, which.max)]]

推荐文章

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

buzz · 在dplyr包中,可以根据不同列中的值对列进行变异吗

2 年前

Artur Vidaurre de Almeida · 用R列中的下一个值替换NA值

2 年前

Rich · 如何通过比较R中的两列来计算不同的值?

2 年前

J.Sabree · case\u when在使用group by时忽略一些参数

2 年前

cigarettes_after_text · 有没有一种方法可以更高效地将其写入单个Dplyr语句?

2 年前

Melderon · 将dplyr转换命令转换为基R函数

2 年前

Rafael Peixoto · 熊猫有什么类似于dplyr的“列表列”的吗

2 年前

awoj · 使用pivot\u wider()时修改列名顺序

2 年前

John Thomas · 使用tidyverse/dplyr[duplicate]创建虚拟变量作为计数

2 年前