代码之家  ›  专栏  ›  技术社区  ›  kevin628 Padmapriya Vishnuvardhan

匹配结束HTML标记的正则表达式

  •  3
  • kevin628 Padmapriya Vishnuvardhan  · 技术社区  · 14 年前

    我一直在尝试的匹配结束标记的模式是 </(?!a)> . 对我来说这似乎是合乎逻辑的,为什么它不起作用呢?这个 (?!a)

    编辑:AGG!我猜正则表达式没有出现!

    4 回复  |  直到 6 年前
        2
  •  5
  •   pavanlimo    14 年前
    <TAG\b[^>]*>(.*?)</TAG> 
    

    匹配特定HTML标记的开头和结尾对。

    <([A-Z][A-Z0-9]*)\b[^>]*>(.*?)</\1>
    

    将匹配任何HTML标记的开头和结尾对。

    看到了吗 here .

        3
  •  4
  •   Community holdenweb    7 年前

    Don't use regex to parse HTML . 它只会让你头痛。

    改用XML解析器。尝试 BeautifulSoup lxml .

        4
  •  0
  •   Ama Aje My Fren    6 年前

    您还可以考虑使用内置在python中的html解析器(用于 Python 2 Python 3 )

    这将帮助您了解您想要处理的HTML文档的特定区域,并在其上使用正则表达式。