代码之家 › 专栏 › 技术社区 › Chan

如何提高在数据帧中使用模糊匹配的速度?

fuzzy-search pandas python

Chan · 技术社区 · 6 年前

我想使用模糊匹配来检查数据帧是否包含关键字。

但是,使用起来很慢 apply .

有没有更快的方法?

我们能用吗? str 或 re ?

import regex

result = df['sentence'].apply(lambda x: regex.compile('(keyword){e<4}').findall(x)) #slow

非常感谢你。

1 回复 | 直到 6 年前

cs95 abhishek58g 6 年前

你为什么要在申请表里面写?这真的破坏了它的目的。另外,加快 apply 电话是不用的 应用 .

如果没有你想要匹配的内容,我向你展示:

p = regex.compile('(keyword){e<4}')
result = [p.findall(x) for x in df['sentence']]

你可以考虑使用 re.search 而不是芬德尔,如果你只是想要一个单一的匹配(为更多的性能)。

推荐文章

Mainland · Python数据帧规范化值错误:列的长度必须与键相同

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前

Gtoth · 如何分割Pandas DataFrame中包含多个日期的两个时间戳之间的差异

1 年前

Domarius · 使用loc为多行设置多列值

1 年前

Swastik Bhattacharyya · 如何在同一类别类型的多列上运行get_dummies()函数?

1 年前

DrZoidberg09 · 如何在字典列表中创建一个新关键字,该关键字是另一个关键字的总和?

1 年前

armstrong3701 · 如何有效地处理熊猫数据框中缺失的数据并计算条件统计?

1 年前

msts1906 · 大熊猫向乳胶的适当多品种出口

1 年前