代码之家 › 专栏 › 技术社区 › akash87

Regex,根据标点符号R分开?

regex r

-2

akash87 · 技术社区 · 6 年前

我知道这是一个 regex 问题,可能已经被回答了,但我无法找出这个问题的答案。我有5000个地址的数据集,其中一些地址显示为:

199 REEDSDALE ROAD MILTON, MA (42.252352, -71.075213)
2014 WASHINGTON STREET NEWTON, MA (42.332339, -71.246592)
75 FRANCIS STREET BOSTON, MA (42.335954, -71.107661)
235 NORTH PEARL STREET BROCKTON, MA (42.09707, -71.065645)
41 HIGHLAND AVENUE WINCHESTER, MA (42.465496, -71.121408)

第一个逗号是地址城市与州之间的分隔,还有纬度和经度坐标。我有兴趣把坐标分成两列,纬度和经度

lat        lon
42.252352  -71.075213
42.332339  -71.246592
42.335954  -71.107661
42.09707   -71.065645
42.465496  -71.121408

感谢您的一切帮助!

1 回复 | 直到 6 年前

akrun 6 年前

其中一个选项是使用regex lookaround提取数值部分

library(tidyverse)
data_frame(lat = str_extract(lines, "(?<=\\()-?[0-9.]+"), 
           lon = str_extract(lines, "-?[0-9.]+(?=\\))"))
# A tibble: 5 x 2
#  lat       lon       
#  <chr>     <chr>     
#1 42.252352 -71.075213
#2 42.332339 -71.246592
#3 42.335954 -71.107661
#4 42.09707  -71.065645
#5 42.465496 -71.121408

或与 read.csv 删除字符后,直到 ( ,包括 ( 和 ) (最后)与 gsub ,使 , 作为 读.csv 分成两列

read.csv(text = gsub("^[^(]+\\(|\\)$", "", lines), header=FALSE, 
          col.names = c("lat", "lon"))
#    lat       lon
#1 42.25235 -71.07521
#2 42.33234 -71.24659
#3 42.33595 -71.10766
#4 42.09707 -71.06565
#5 42.46550 -71.12141

数据

lines <- readLines("file.txt")

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前