代码之家 › 专栏 › 技术社区 › little girl

使用grep和patterns为零件剪切文本

datetime regex r

little girl · 技术社区 · 7 年前

我有一列非常脏的txt文件(.json)。我想把这个文件剪切成n个部分。应该使用的模式是字符串,例如“2018-02-19 10:49:50”(日期和时间当然不同)。我应该用grep?

我有如下数据:

      text
1    2018-02-19 10:49:50 fgdfhdsgfhdsgfh 2018-02-19 10:49:50 abd abd adjskfjs 
     2018-02-19 10:51:21 jfhdsjfdsf

我想要的输出是:

      textA                 textB             textC
1    fgdfhdsgfhdsgfh   abd abd adjskfjs     jfhdsjfdsf

1 回复 | 直到 4 年前

www 7 年前

我们可以根据指示日期和时间的模式分割字符串,然后修剪空白。

text <- "2018-02-19 10:49:50 fgdfhdsgfhdsgfh 2018-02-19 10:49:50 abd abd adjskfjs 2018-02-19 10:51:21 jfhdsjfdsf"

text2 <- trimws(strsplit(text, split = "\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}")[[1]][-1])

text2
# [1] "fgdfhdsgfhdsgfh"  "abd abd adjskfjs" "jfhdsjfdsf"

使现代化

如果我们正在处理数据帧中的一列,并且希望输出在单独的列中,那么可以使用 str_split 来自的函数 stringr 包裹请注意,在下面的示例中,我复制了原始文本以形成一列两行的数据框。

library(stringr)
text <- "2018-02-19 10:49:50 fgdfhdsgfhdsgfh 2018-02-19 10:49:50 abd abd adjskfjs 2018-02-19 10:51:21 jfhdsjfdsf"
text_df <- data.frame(text = rep(text, 2), stringsAsFactors = FALSE)
m1 <- str_split(text_df$text, pattern = "\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}", simplify = TRUE)
m2 <- m1[, 2:ncol(m1)]
m3 <- apply(m2, 2, trimws)
m3
#      [,1]              [,2]               [,3]        
# [1,] "fgdfhdsgfhdsgfh" "abd abd adjskfjs" "jfhdsjfdsf"
# [2,] "fgdfhdsgfhdsgfh" "abd abd adjskfjs" "jfhdsjfdsf"

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前