代码之家 › 专栏 › 技术社区 › marcel

基于前一行中的值设置时间序列中的日期值

series time dataframe r

marcel · 技术社区 · 5 年前

我有以下几点:

df <- data.frame(A = c(1:8), ref.date = c(NA, "10/12/18", NA, NA, "12/15/19", NA, NA, NA))
df$ref.date <- as.Date(df$ref.date, format = "%m/%d/%y")
df$new.date <- NA

A  ref.date new.date
1     <NA>       NA
2 10/12/18       10/12/18
3     <NA>       10/12/18
4     <NA>       10/12/18
5 12/15/19       12/15/19
6     <NA>       12/15/19
7     <NA>       12/15/19
8     <NA>       12/15/19

我试过了

library(dplyr)
df <- df %>% mutate(new.date = ifelse(is.na(ref.date), lag(new.date), ref.date))
df$new.date <- as.Date(df$new.date, format = "%m/%d/%y")

但这产生了数字格式的日期,并且没有正确填充ref.date为NA的行。

0 回复 | 直到 5 年前

Ronak Shah 5 年前

我们可以复制 ref.date 进入之内 new.date fill 从 tidyr

library(dplyr)
df %>% mutate(new.date = ref.date) %>% tidyr::fill(new.date)

#  A   ref.date   new.date
#1 1       <NA>       <NA>
#2 2 2018-10-12 2018-10-12
#3 3       <NA> 2018-10-12
#4 4       <NA> 2018-10-12
#5 5 2019-12-15 2019-12-15
#6 6       <NA> 2019-12-15
#7 7       <NA> 2019-12-15
#8 8       <NA> 2019-12-15

cimentadaj 5 年前

我认为应该这样做:

df <- data.frame(A = c(1:8), ref.date = c(NA, "10/12/18", NA, NA, "12/15/19", NA, NA, NA))
df$ref.date <- as.Date(df$ref.date, format = "%m/%d/%y")
df$new.date <- NA

library(dplyr)
#> 
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#> 
#>     filter, lag
#> The following objects are masked from 'package:base':
#> 
#>     intersect, setdiff, setequal, union
library(tidyr)

df %>%
  mutate(new.date = ref.date) %>% 
  fill(`new.date`, .direction = "down")
#>   A   ref.date   new.date
#> 1 1       <NA>       <NA>
#> 2 2 2018-10-12 2018-10-12
#> 3 3       <NA> 2018-10-12
#> 4 4       <NA> 2018-10-12
#> 5 5 2019-12-15 2019-12-15
#> 6 6       <NA> 2019-12-15
#> 7 7       <NA> 2019-12-15
#> 8 8       <NA> 2019-12-15

ThomasIsCoding 5 年前

下面是一些基本的解决方案。

使用 rle() + cumsum()

df$new.date <- with(rle(cumsum(!is.na(df$ref.date))),
                    rep(df$ref.date[c(0,cumsum(lengths[-length(lengths)]))+1],lengths))

使用 split() + rbind() :

df <- do.call(rbind,
              c(make.row.names = F,
                lapply(split(df,cumsum(!is.na(df$ref.date))), 
                       function(v) cbind(v,new.date = head(v$ref.date,1)))))

以至于

> df
  A   ref.date   new.date
1 1       <NA>       <NA>
2 2 2018-10-12 2018-10-12
3 3       <NA> 2018-10-12
4 4       <NA> 2018-10-12
5 5 2019-12-15 2019-12-15
6 6       <NA> 2019-12-15
7 7       <NA> 2019-12-15
8 8       <NA> 2019-12-15

推荐文章

Marc B. · 使用ggplot2创建条形图时“缺少值”

1 年前

deschen · tidyverse与外部向量发生突变,该外部向量的元素是数据帧中的列值

1 年前

Laura · 在Shiny中使用可排序的包拖放名称,这些名称将成为图表

1 年前

Mallikarjun M · 如何使用随机森林进行时间序列预测?

1 年前

ly li · 模型摘要:当表格形状改变时,拟合优度消失

1 年前

C.Robin · 将marginaffects::predictions()的结果连接回main df?

1 年前

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

RoyBatty · 统计每个字符在整个数据集中出现的次数

2 年前

stats_noob · R: 记录某个“行为”发生的循环的索引?

2 年前