代码之家 › 专栏 › 技术社区 › jezrael

在分隔符之间提取具有一定长度的整数

findall string regex python

jezrael · 技术社区 · 5 年前

给出一个字符串列表,如:

L = ['1759@1@83@0#1362@0.2600@25.7400@2.8600#1094@1@129.6@14.4', 
     '1356@0.4950@26.7300@2.9700', 
     '1354@1.78@35.244@3.916#1101@2@40@0#1108@2@30@0',
     '1430@1@19.35@2.15#1431@3@245.62@60.29#1074@12@385.2@58.8#1109',
     '1809@8@75.34@292.66#1816@4@24.56@95.44#1076@47@510.89@1110.61']

我需要在分隔符之间提取所有长度为4的整数 # 或 @ ,并提取第一个和最后一个整数。没有浮动。

我的解决方案有点过于复杂-用空格替换然后应用 this 解决方案:

pat = r'(?<!\S)\d{4}(?!\S)'
out = [re.findall(pat, re.sub('[#@]', ' ', x)) for x in L]
print (out)
"""
[['1759', '1362', '1094'], 
 ['1356'], 
 ['1354', '1101', '1108'], 
 ['1430', '1431', '1074', '1109'], 
 ['1809', '1816', '1076']]
"""

是否可以将regex更改为不使用 re.sub

2 回复 | 直到 5 年前

revo shanwije 5 年前

要允许没有前导或尾随分隔符的第一次和最后一次出现,可以使用负环视框:

(?<![^#])\d{4}(?![^@])

(?<![^#]) 是一个近的同义词 (?:^|#) . 这同样适用于负面展望。

看现场直播 demo here

Rohit Mehrotra 5 年前

有趣的问题!

这一点可以很容易地通过“向前看”和“向后看”的概念来解决。

输入

pattern = "(?<!\.)(?<=[#@])\d{4}|(?<!\.)\d{4}(?=[@#])"
out = [re.findall(pattern, x) for x in L]
print (out)

[['1759', '1362', '1094', '1234'],
 ['1356'],
 ['1354', '1101', '1108'],
 ['1430', '1431', '1074', '1109'],
 ['1809', '1816', '1076', '1110']]

解释

以上图案是由一个 (或操作员)。

pattern_1 = "(?<!\.)(?<=[#@])\d{4}"
\d{4}     --- Extract exactly 4 digits
(?<!\.)   --- The 4 digits must not be preceded by a period(.) NEGATIVE LOOKBEHIND
(?<=[#@]) --- The 4 digits must be preceded by a hashtag(#) or at(@) POSITIVE LOOKBEHIND

pattern_2 = "(?<!\.)\d{4}(?=[@#])"
\d{4}     --- Extract exactly 4 digits
(?<!\.)   --- The 4 digits must not be preceded by a period(.) NEGATIVE LOOKBEHIND
(?=[@#]   --- The 4 digits must be followed by a hashtag(#) or at(@) POSITIVE LOOKAHEAD

为了更好地理解这些概念, click here

Arkistarvh Kltzuonstev 5 年前

# 或结束 @ 也是:

[[n for o in p for n in o] for p in [[[m for m in k.split("@") if m.isdigit() and str(int(m))==m and len(m) ==4] for k in j.split("#")] for j in L]]

输出 :

[['1759', '1362', '1094'], ['1356'], ['1354', '1101', '1108'], ['1430', '1431', '1074', '1109'], ['1809', '1816', '1076']]

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前