代码之家 › 专栏 › 技术社区 › Arthur D. Howland

python3通过正则表达式和通配符过滤数据帧

pandas python-3.x regex

Arthur D. Howland · 技术社区 · 6 年前

使用文本数据集时,我有一个在数据帧中给出不规则结果的提取。我不是很擅长正则表达式,从来没有做过一个过滤器尝试一个这样的帮助将不胜感激。

我正在尝试筛选a列中的第4行;6模式是4个数字,一个字母,一个空格,/空格,2个数字,空格,/,空格,5个数字,空格,/,然后是后面的数字。

    a                            b          c            d
0   1234B:Program Name / Title   Chapter    Page Number  ID Code
1   1234B:Program Name / Title   Chapter    Page Number  ID Code
2   1234B:Program Name / Title   Chapter    Page Number  ID Code
3   1234B / 01 / 2               (blank)    (blank)      ID Code
4   1234B / 01 / 23456 / Title   Chapter    Page Number  ID Code   <---- Filter for this
5   1234B / 01 / 2               (blank)    (blank)      ID Code
6   1234B / 01 / 23456 / Title   Chapter    Page Number  ID Code   <---- Filter for this

我尝试了以下代码:

# Filter by pattern
import pandas as pd
import numpy as np
import re
pattern = re.compile("[0-9][0-9][0-9][0-9][B][\s][/][\s][0-9][0-9][\s][/][\s][0-9][0-9][0-9][0-9][0-9][\s]+[/]")
df = df[df['a'].apply(pattern)]

结果是TypeError:'_sre.SRE_Pattern'对象不可调用。看来我用错了。另外,我的正则表达式没有通配符来解释a列中的其余数据。过滤列a的pythonic方法是什么?查看列a中的前20个字符并对其进行模式匹配?

1 回复 | 直到 6 年前

asongtoruin 6 年前

根据给定的规则,您可以使用以下选项:

df = df[df['a'].str.match(r'\d{4}[a-zA-z]\s\/\s\d{2}\s\/\s\d{5}\s\/.*')]

这将提供:

                            a        b            c        d
4  1234B / 01 / 23456 / Title  Chapter  Page Number  ID Code
6  1234B / 01 / 23456 / Title  Chapter  Page Number  ID Code

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前