代码之家 › 专栏 › 技术社区 › kevin628 Padmapriya Vishnuvardhan

匹配结束HTML标记的正则表达式

regex html python

kevin628 Padmapriya Vishnuvardhan · 技术社区 · 14 年前

我一直在尝试的匹配结束标记的模式是 </(?!a)> . 对我来说这似乎是合乎逻辑的,为什么它不起作用呢?这个 (?!a)

编辑:AGG!我猜正则表达式没有出现!

4 回复 | 直到 6 年前

Community holdenweb 7 年前

pavanlimo 14 年前

<TAG\b[^>]*>(.*?)</TAG>

匹配特定HTML标记的开头和结尾对。

<([A-Z][A-Z0-9]*)\b[^>]*>(.*?)</\1>

将匹配任何HTML标记的开头和结尾对。

看到了吗 here .

Community holdenweb 7 年前

改用XML解析器。尝试 BeautifulSoup lxml .

Ama Aje My Fren 6 年前

您还可以考虑使用内置在python中的html解析器(用于 Python 2 和 Python 3 )

这将帮助您了解您想要处理的HTML文档的特定区域,并在其上使用正则表达式。

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前