代码之家 › 专栏 › 技术社区 › Yin Zhu

如何将此正则表达式转换为python

regex python

Yin Zhu · 技术社区 · 14 年前

我想在python中使用这个正则表达式:

 <(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>

def removeHtmlTags(page):
    p = re.compile(r'XXXX')
    return p.sub('', page)

似乎我不能直接将复杂的正则表达式替换成上面的函数。

2 回复 | 直到 14 年前

Ignacio Vazquez-Abrams 14 年前

在这里工作很好。你可能因为引用而遇到麻烦。只需三次引用:

def removeHtmlTags(page):
    p = re.compile(r'''<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>''')
    return p.sub('', page)

mcrisc 14 年前

如果需要删除HTML标记,应该这样做:

import re

def removeHtmlTags(page):
    pattern = re.compile(r'\<[^>]+\>', re.I)
    return pattern.sub('', page)

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前