代码之家  ›  专栏  ›  技术社区  ›  Teifion

Python中的HTML解析器

  •  7
  • Teifion  · 技术社区  · 16 年前

    使用python文档,我发现 HTML parser 但我不知道要导入哪个库来使用它,我如何才能找到它(记住,页面上没有显示)。

    8 回复  |  直到 10 年前
        1
  •  13
  •   diabloneo 1077    13 年前

    尝试:

    import HTMLParser
    

    在python 3.0中,html parser模块已重命名为html.parser。 你可以查一下这个 here

    Python 3

    import html.parser
    

    python 2.2及更高版本

    导入HTML分析器
    
        2
  •  23
  •   Community Lee    7 年前

    你可能真的想要 BeautifulSoup ,请检查链接以获取示例。

    但无论如何

    >>> import HTMLParser
    >>> h = HTMLParser.HTMLParser()
    >>> h.feed('<html></html>')
    >>> h.get_starttag_text()
    '<html>'
    >>> h.close()
    
        3
  •  4
  •   Swaroop C H    16 年前

    我建议使用 Beautiful Soup 相反,它有 good documentation .

        4
  •  4
  •   Paweł Hajdan    16 年前

    你可能对 lxml . 它是一个单独的包,有C组件,但速度最快。它还具有非常好的API,允许您轻松地在HTML文档或列表表单中列出链接,清理HTML等等。它还可以解析格式不正确的HTML(它是可配置的)。

        5
  •  4
  •   Cristian Ciupitu    13 年前

    你也应该看看 html5lib 对于python来说,它试图以一种非常类似于Web浏览器的方式解析HTML,特别是在处理无效的HTML(占当今Web的90%以上)时。

        6
  •  3
  •   1077    16 年前

    如果你想要速度,我不推荐美味的汤。LXML的速度快得多,如果默认的解析器不起作用,您可以回到LXML的BSsoupparser中。

        7
  •  1
  •   Antti Rasinen    16 年前

    对于真实的HTML处理,我建议 BeautifulSoup . 它很好,可以减轻很多痛苦。安装容易。

        8
  •  1
  •   Eric Leschinski Mr. Napik    10 年前

    下面有一个示例链接( http://docs.python.org/2/library/htmlparser.html ,它只是不适用于原始的python或python3。它必须是上面写的python2。