代码之家 › 专栏 › 技术社区 › J Alan

正则表达式匹配无效的Unicode字符

invalid-characters null unicode regex python

J Alan · 技术社区 · 6 年前

ê,êµ,\u0f6e,â´,ê¦,\u2d75,ê¢¯,â¾,\ua97d,â©±,ã´,\u2d6e,é¼º,\x00ê
我想过滤掉所有这些以斜杠开头的无效字符,我正试图用Python中的正则表达式来实现这一点。

它确实是这样工作的:

re.sub(r",\u0f6e,", r",deleted,", s)

re.sub(r",\.{5},", r",deleted,", s)

它应该按照 http://pythex.org ,所以我猜是因为它们是无效字符?我怎样才能匹配它们?

编辑: 问题似乎是因为输入字符串 s 不是原始字符串。

>>> s = ' ê,êµ,\u0f6e,â´,ê¦,\u2d75,ê¢¯,â¾,\ua97d,â©±,ã´,\u2d6e,é¼º,\x00ê'
>>> re.sub(r",\u0f6e,", r",deleted,", s)
' ê,êµ,deleted,â´,ê¦,\u2d75,ê¢¯,â¾,\ua97d,â©±,ã´,\u2d6e,é¼º,\x00ê'

2 回复 | 直到 6 年前

Mark Tolonen 6 年前

\u0f6e 是一个 单代码点 表示为转义码。例子:

>>> s = 'ê,êµ,\u0f6e,â´,ê¦,\u2d75,ê¢¯,â¾,\ua97d,â©±,ã´,\u2d6e,é¼º,\x00ê'
>>> s
'ê,êµ,\u0f6e,â´,ê¦,\u2d75,ê¢¯,â¾,\ua97d,â©±,ã´,\u2d6e,é¼º,\x00ê'
>>> print(s)
ê,êµ,à½®,â´,ê¦,âµµ,ê¢¯,â¾,ê¥½,â©±,ã´,âµ®,é¼º, ê

>>> ''.join(['deleted' if ud.category(c)[0] == 'C' else c for c in s])
'ê,êµ,deleted,â´,ê¦,deleted,ê¢¯,â¾,deleted,â©±,ã´,deleted,é¼º,deletedê'

metatoaster 6 年前

我不知道你的第一次 re.sub

>>> s = r' ê,êµ,\u0f6e,â´,ê¦,\u2d75,ê¢¯,â¾,\ua97d,â©±,ã´,\u2d6e,é¼º,\x00ê'
>>> re.sub(r",\u0f6e,", r",deleted,", s)                                        
' ê,êµ,\\u0f6e,â´,ê¦,\\u2d75,ê¢¯,â¾,\\ua97d,â©±,ã´,\\u2d6e,é¼º,\\x00ê'

注意第一个 r'\u0f6e' 残余在正则表达式中 \ 字符也是特殊的,所以它也必须转义。这可以通过使用 \\

>>> re.sub(r",\\u0f6e,", r",deleted,", s)                                       
' ê,êµ,deleted,â´,ê¦,\\u2d75,ê¢¯,â¾,\\ua97d,â©±,ã´,\\u2d6e,é¼º,\\x00ê'

为了与实际表达式匹配且不超过需要,请注意 \\u 0-9 和 a-f

>>> re.sub(r",\\u[0-9a-f]+,", r",deleted,", s)                                  
' ê,êµ,deleted,â´,ê¦,deleted,ê¢¯,â¾,deleted,â©±,ã´,deleted,é¼º,\\x00ê'

请注意,整个答案假设您提供的信息是正确的,转义序列实际上是反斜杠字符。更新您的问题以包含这些代码片段会很有用,就像我在这里所做的那样,这样可以减少对正在执行的操作的模糊性(因为我们可以复制粘贴您的代码并运行它来查看出错的地方,我们还可以更容易地更正它)。

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前