代码之家 › 专栏 › 技术社区 › Ma0

带列表的高效正则表达式

performance regex python

Ma0 · 技术社区 · 6 年前

我有一个字符串列表 os.listdir() 如下所示:

['foo',
 'bar'
 'backup_20180406'
 ...]

从这些条目中,我想得到那些符合 “备份” 模式。使用命名组的regex将是

regex = r"BACKUP_(?P<date>\d+)"

我试图创建一个包含 仅限日期 从上面(又名 .group('date') ,但如果不解析两次字符串,我就找不到方法。

res = [re.search(regex, x).group('date') for x in filter(r.match, os.listdir(folder))]

我确信我遗漏了一些非常明显和简洁的东西,那么有没有更好的方法呢?

3 回复 | 直到 6 年前

Holger Bille 6 年前

我通常会:

regex = re.compile(r"BACKUP_(?P<date>\d+)")
a = ['foo', "BACKUP_20180406", 'xxx']
matches = [regex.match(x) for x in a]
valid = [x.group('date') for x in matches if x]

或者只是

valid = [x.group('date') for x in (regex.match(y) for y in a) if x]

andrew_reece 6 年前

这是熊猫解决方案,使用 extract() :

import pandas as pd

strings = ['foo', 'bar', 'backup_20180406']
regex = r"backup_(?P<date>\d+)"

pd.Series(strings).str.extract(regex).dropna()

2    20180406
Name: date, dtype: object

-1

Gelineau 6 年前

如果要测试一个简单的模式,regex很少是最有效的工具。只需使用startswith,速度就会提高一倍。

from timeit import timeit
import re

size = 10000
data = ['foo','bar','backup_20180406'] * size

def find_dates(data):
    prefix = 'backup_'
    prefix_size = len(prefix)
    return [name[prefix_size:] for name in data if name.startswith(prefix)]

def find_dates_testing_numbers(data):
    prefix = 'backup_'
    prefix_size = len(prefix)
    for name in data:
        if name.startswith(prefix):
            try:
                yield int(name[prefix_size:])
            except ValueError:
                pass

def find_dates_regex(data):
    regex = re.compile(r"backup_(?P<date>\d+)")
    return [x.group('date') for x in (regex.match(y) for y in data) if x]

def find_dates_pd(data):
    import pandas as pd
    regex = r"backup_(?P<date>\d+)"
    return pd.Series(data).str.extract(regex).dropna()

result = find_dates(data)
print(timeit('find_dates(data)', globals=globals(), number=1000))
# 4.02514289499959 seconds

print(timeit('list(find_dates_testing_numbers(data))', globals=globals(), number=1000))
# 6.0529899510002 seconds

print(timeit('find_dates_regex(data)', globals=globals(), number=1000))
# 8.772153561999403 seconds

print(timeit('find_dates_pd(data)', globals=globals(), number=1000))
# 19.018224569999802

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前