代码之家 › 专栏 › 技术社区 › user113156

提取列中包含NA值的单元格,并根据结果创建新列

dplyr r

user113156 · 技术社区 · 2 年前

我有如下数据:

     grp REGIONNAME RegionName `AÃ±o 2004_1` `AÃ±o 2004_2` `AÃ±o 2004_3`
   <int> <chr>      <chr>             <dbl>        <dbl>        <dbl>
 1     1 ANDALUCÃA  ANDALUCÃA         32143        37962        32374
 2     1 ANDALUCÃA  AlmerÃa              NA           NA           NA
 3     1 ANDALUCÃA  Abla                 58           61           54
 4     1 ANDALUCÃA  Abrucena              6            2            1
 5     1 ANDALUCÃA  Adra                146          211          101
 6     1 ANDALUCÃA  AlbÃ¡nchez            12            3            3
 7     1 ANDALUCÃA  Alboloduy             2            2            2
 8     1 ANDALUCÃA  Albox                33           66           35
 9     1 ANDALUCÃA  Alcolea               0            1            1
10     1 ANDALUCÃA  AlcÃ³ntar              1            1            2

在这个样本中,它包含2 NA 行,一个用于 Almeria 另一个用于 Balanegra 。

我想创建一个新列 RegionName 比方说。这两个单元格将在何处填充。即预期输出将是:

     grp REGIONNAME RegionName    RegionName
   <int> <chr>      <chr>            <chr>
 1     1 ANDALUCÃA  ANDALUCÃA        ANDALUCIA/NA
 2     1 ANDALUCÃA  AlmerÃa            Almeria
 3     1 ANDALUCÃA  Abla               Almeria
 4     1 ANDALUCÃA  Abrucena           Almeria
 5     1 ANDALUCÃA  Adra               Almeria
 6     1 ANDALUCÃA  AlbÃ¡nchez          Almeria
 7     1 ANDALUCÃA  Alboloduy          Almeria
 8     1 ANDALUCÃA  Albox                ...
 9     1 ANDALUCÃA  Alcolea              ...
10     1 ANDALUCÃA  AlcÃ³ntar             ...
               ...............
  
 1     1 ANDALUCÃA  Bacares              ...
 2     1 ANDALUCÃA  Balanegra          Balanegra
 3     1 ANDALUCÃA  BayÃ¡rcal           Balanegra
 4     1 ANDALUCÃA  Bayarque           Balanegra
 5     1 ANDALUCÃA  BÃ©dar              Balanegra
 6     1 ANDALUCÃA  Beires    
 7     1 ANDALUCÃA  Benahadux           ....
 8     1 ANDALUCÃA  Benitagla           ....
 9     1 ANDALUCÃA  BenizalÃ³n 
10     1 ANDALUCÃA  Bentarique         Balanegra

所以当它看到 NA 值,则表示一个新的“区域”。

最后,我想 group_by 这个新创建的区域并计算 cumsum 以便填写 NA 价值观

我做了一些与 REGIONNAME 当我想填写的NA值 ANDALUCIA 。

... %>%
  group_by(grp = cumsum(RegionName == toupper(RegionName))) %>%
  mutate(REGIONNAME = first(RegionName)) %>% 
  relocate(REGIONNAME, .before = RegionName) %>% 
  mutate(across(starts_with("AÃ±o"), 
                ~ ifelse(REGIONNAME == RegionName, sum(.x[REGIONNAME != RegionName], na.rm = T), .x)))

数据:

df = structure(list(grp = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L), REGIONNAME = c("ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", 
"ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", 
"ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", 
"ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", 
"ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", 
"ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", "ANDALUCÃA", 
"ANDALUCÃA", "ANDALUCÃA"), RegionName = c("ANDALUCÃA", "AlmerÃa", 
"Abla", "Abrucena", "Adra", "AlbÃ¡nchez", "Alboloduy", "Albox", 
"Alcolea", "AlcÃ³ntar", "Alcudia de Monteagud", "Alhabia", "Alhama de AlmerÃa", 
"AlicÃºn", "AlmerÃa", "AlmÃ³cita", "Alsodux", "Antas", "Arboleas", 
"ArmuÃ±a de Almanzora", "Bacares", "Balanegra", "BayÃ¡rcal", 
"Bayarque", "BÃ©dar", "Beires", "Benahadux", "Benitagla", "BenizalÃ³n", 
"Bentarique"), `AÃ±o 2004_1` = c(32143, NA, 58, 6, 146, 12, 2, 
33, 0, 1, 1, 1, 13, 0, 748, 0, 1, 6, 16, 0, 2, NA, 0, 0, 8, 0, 
18, 1, 2, 0), `AÃ±o 2004_2` = c(37962, NA, 61, 2, 211, 3, 2, 
66, 1, 1, 1, 0, 15, 1, 770, 0, 10, 12, 16, 0, 1, NA, 1, 0, 2, 
0, 21, 0, 0, 0), `AÃ±o 2004_3` = c(32374, NA, 54, 1, 101, 3, 
2, 35, 1, 2, 0, 0, 14, 0, 701, 0, 3, 26, 14, 0, 0, NA, 0, 3, 
8, 0, 25, 0, 2, 0)), class = c("grouped_df", "tbl_df", "tbl", 
"data.frame"), row.names = c(NA, -30L), groups = structure(list(
    grp = 1L, .rows = structure(list(1:30), ptype = integer(0), class = c("vctrs_list_of", 
    "vctrs_vctr", "list"))), class = c("tbl_df", "tbl", "data.frame"
), row.names = c(NA, -1L), .drop = TRUE))

0 回复 | 直到 2 年前

Maël 2 年前

您可以使用 c_across 和 fill :

library(tidyverse)

df %>% 
  rowwise() %>% 
  mutate(Region = case_when(all(is.na(c_across(starts_with("AÃ±o")))) ~ RegionName)) %>% 
  ungroup() %>% 
  fill(Region)

# A tibble: 30 Ã 7
     grp REGIONNAME RegionName           `AÃ±o 2004_1` `AÃ±o 2004_2` `AÃ±o 2004_3` Region   
   <int> <chr>      <chr>                       <dbl>        <dbl>        <dbl> <chr>    
 1     1 ANDALUCÃA  ANDALUCÃA                   32143        37962        32374 NA       
 2     1 ANDALUCÃA  AlmerÃa                        NA           NA           NA AlmerÃa  
 3     1 ANDALUCÃA  Abla                           58           61           54 AlmerÃa  
 4     1 ANDALUCÃA  Abrucena                        6            2            1 AlmerÃa  
 5     1 ANDALUCÃA  Adra                          146          211          101 AlmerÃa  
 6     1 ANDALUCÃA  AlbÃ¡nchez                      12            3            3 AlmerÃa  
 7     1 ANDALUCÃA  Alboloduy                       2            2            2 AlmerÃa  
 8     1 ANDALUCÃA  Albox                          33           66           35 AlmerÃa  
 9     1 ANDALUCÃA  Alcolea                         0            1            1 AlmerÃa  
10     1 ANDALUCÃA  AlcÃ³ntar                        1            1            2 AlmerÃa  
11     1 ANDALUCÃA  Alcudia de Monteagud            1            1            0 AlmerÃa  
12     1 ANDALUCÃA  Alhabia                         1            0            0 AlmerÃa  
13     1 ANDALUCÃA  Alhama de AlmerÃa              13           15           14 AlmerÃa  
14     1 ANDALUCÃA  AlicÃºn                          0            1            0 AlmerÃa  
15     1 ANDALUCÃA  AlmerÃa                       748          770          701 AlmerÃa  
16     1 ANDALUCÃA  AlmÃ³cita                        0            0            0 AlmerÃa  
17     1 ANDALUCÃA  Alsodux                         1           10            3 AlmerÃa  
18     1 ANDALUCÃA  Antas                           6           12           26 AlmerÃa  
19     1 ANDALUCÃA  Arboleas                       16           16           14 AlmerÃa  
20     1 ANDALUCÃA  ArmuÃ±a de Almanzora             0            0            0 AlmerÃa  
21     1 ANDALUCÃA  Bacares                         2            1            0 AlmerÃa  
22     1 ANDALUCÃA  Balanegra                      NA           NA           NA Balanegra
23     1 ANDALUCÃA  BayÃ¡rcal                        0            1            0 Balanegra
24     1 ANDALUCÃA  Bayarque                        0            0            3 Balanegra
25     1 ANDALUCÃA  BÃ©dar                           8            2            8 Balanegra
26     1 ANDALUCÃA  Beires                          0            0            0 Balanegra
27     1 ANDALUCÃA  Benahadux                      18           21           25 Balanegra
28     1 ANDALUCÃA  Benitagla                       1            0            0 Balanegra
29     1 ANDALUCÃA  BenizalÃ³n                       2            0            2 Balanegra
30     1 ANDALUCÃA  Bentarique                      0            0            0 Balanegra

akrun 2 年前

我们还可以使用 if_all

library(dplyr)
library(tidyr)
df %>%
   ungroup %>%
   mutate(Region = case_when(if_all(starts_with("AÃ±o"), is.na) ~ RegionName)) %>% 
   group_by(grp) %>%
   fill(Region) %>%
   ungroup

-输出

# A tibble: 30 Ã 7
     grp REGIONNAME RegionName `AÃ±o 2004_1` `AÃ±o 2004_2` `AÃ±o 2004_3` Region 
   <int> <chr>      <chr>             <dbl>        <dbl>        <dbl> <chr>  
 1     1 ANDALUCÃA  ANDALUCÃA         32143        37962        32374 <NA>   
 2     1 ANDALUCÃA  AlmerÃa              NA           NA           NA AlmerÃa
 3     1 ANDALUCÃA  Abla                 58           61           54 AlmerÃa
 4     1 ANDALUCÃA  Abrucena              6            2            1 AlmerÃa
 5     1 ANDALUCÃA  Adra                146          211          101 AlmerÃa
 6     1 ANDALUCÃA  AlbÃ¡nchez            12            3            3 AlmerÃa
 7     1 ANDALUCÃA  Alboloduy             2            2            2 AlmerÃa
 8     1 ANDALUCÃA  Albox                33           66           35 AlmerÃa
 9     1 ANDALUCÃA  Alcolea               0            1            1 AlmerÃa
10     1 ANDALUCÃA  AlcÃ³ntar              1            1            2 AlmerÃa
# â¦ with 20 more rows