代码之家 › 专栏 › 技术社区 › jovicbg

使用正则表达式从列中提取子字符串

pandas regex python

jovicbg · 技术社区 · 6 年前

我有一些列的值如下:

Col1

1/1/100 'BA1
1/1/102Packe
1/1/102 'to_

只需提取1/1/100(从第一行开始),依此类推(1/1/102…)

df['col1'] = df['col1'].str.extract('(\d+)/(\d+)/(\d+)', expand=True)

但我只得到1分。

不知道为什么这不起作用,是正则表达式有问题还是我需要某种映射?

3 回复 | 直到 6 年前

Wiktor StribiÅ¼ew 6 年前

您只需要使用一个捕获组:

df['col1'] = df['col1'].str.extract('(\d+/\d+/\d+)', expand=True)
                                     ^           ^

这个 str.extract 方法返回第一个捕获组捕获的值,并且正则表达式捕获第一个值 1 加入那一组。

测试:

>>> import pandas as pd
>>> df = pd.DataFrame({"col1":["1/1/100 'BA1", "1/1/102Packe", "1/1/102 'to_"]})
>>> df['col1'].str.extract('(\d+/\d+/\d+)', expand=True)
         0
0  1/1/100
1  1/1/102
2  1/1/102

Mohamed Thasin ah 6 年前

df['Col1']=df['Col1'].str.replace('\d+|/','')

注: 正则表达式比 .str.replace .

Samir 6 年前

df['col1'].str.extract('\b(\d/?)+', expand=True)

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前