代码之家 › 专栏 › 技术社区 › abaporu

在r[关闭]中提取文本字符串

regex r

-1

abaporu · 技术社区 · 6 年前

我有一个这样的专栏:

> PREFI.(S): NETWORK SA|ADV.(A/S):JOHN SMITH SANT'ANNA (30652/RS)Â AND OTHER(A/S)|RECDO.(A/S): CLAUDIA TRROMMER|ADV.(A/S): LOUISE (52417/RS)

> PREFI.(S): RUTH SEIXAS|ADV.(A/S): LOPES SOUTO (47706/RS)|RECDO.(A/S): MARTINS (64285/RS)

我想: 1)拆分值| 2)仅获取介于”)“或”:“和非字母字符/行尾之间的文本

结果将是:

 NETWORK SA 
 JOHN SMITH
 AND OTHER
 CLAUDIA TRROMMER
 LOUISE RUTH

等

我想我第一部分做得很成功

docs <- str_split(processos$partes,"\\|")

但是我不知道最后一部分-即使在用regex lookback/ahead进行了一些尝试之后

1 回复 | 直到 6 年前

Retired Data Munger 6 年前

解决方案使用 泰迪弗斯 以及桁条功能:

> library(tidyverse)

> x <- "
+ > PREFI.(S): NETWORK SA|ADV.(A/S):JOHN SMITH SANT'ANNA (30652/RS) AND OTHER(A/S)|RECDO.(A/S): CLAUDIA TRROMMER|ADV.(A/S): LOUISE (52417/RS) ..." ... [TRUNCATED] 

> # split on "|"
> xs <- str_split(x, "\\|")[[1]]

> # extract the data
> str_extract_all(xs, "\\):[ a-zA-Z]*") %>%
+   unlist() %>%
+   sub("^..", "", .)  # get rid of "):"
[1] " NETWORK SA"       "JOHN SMITH SANT"   " CLAUDIA TRROMMER"
[4] " LOUISE "          " RUTH SEIXAS"      " LOPES SOUTO "    
[7] " MARTINS "

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前