代码之家 › 专栏 › 技术社区 › Milano

价格的regex不起作用

regex python

Milano · 技术社区 · 6 年前

我需要一个regex来匹配任何数字,后面跟一个由数字、空格、点和逗号组成的字符串,后面跟“k”或“eur”。

问题是我的 regex 有时并没有找到所有这样的字符串。

((\d[., \d]+)(KÄ|Eur))

例如:

re.findall("""((\d[., \d]+)(KÄ|Eur))""","Letenky od 12 932 KcÌ",flags=re.IGNORECASE)

返回Nothing而不是 [(12 932 KÄ,12 932,KÄ)]

你知道Regex有什么问题吗?

2 回复 | 直到 6 年前

Wiktor StribiÅ¼ew 6 年前

输入字符串包含一个由基组成的多字节字母 c 字母和音调符号,regex包含带Unicode码位的预组合字母 \u010D .

你可以用

(\d(?:[., \d]*\d)?)\s*(K(?:c\u030C|\u010D)|Eur)

或

(\d[., \d]*)\s*(K(?:cÌ|Ä)|Eur))

查看 regex ( second regex demo )和 Python demo .

图案细节

\d -数字
(?:[., \d]*\d)? -可选出现
- [., \d]* -零个或多个数字、空格, . 或 ,
- \ D -数字
\s* -0个或更多空白
(?:K(?:c\u030C|\u010D)|Eur) -或者 K 后面跟着 c\u030C 或 \ U010D型 ,或 Eur 价值观。

定义货币regex时,请使用 CZK = ['Czk','K(?:cÌ|Ä)'] 或 CZK = ['Czk', r'K(?:c\u030C|\u010D)'] .

Aankhen Jon 6 年前

正如Wiktor Stribiew评论的那样, KÄ 在你的regexp中不同于 KcÌ 在您的文本中。您可以使用 unicodedata 两种标准化模块:

>>> import re
>>> re.findall("""((\d[., \d]+)(KÄ|Eur))""", "Letenky od 12 932 KcÌ", flags=re.IGNORECASE)
[]
>>> import unicodedata
>>> re.findall(unicodedata.normalize("NFD", """((\d[., \d]+)(KÄ|Eur))"""), unicodedata.normalize("NFD", "Letenky od 12 932 KcÌ"), flags=re.IGNORECASE)
[('12 932 KcÌ', '12 932 ', 'KcÌ')]

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前