代码之家 › 专栏 › 技术社区 › Teifion

Python中的HTML解析器

import python

Teifion · 技术社区 · 16 年前

使用python文档,我发现 HTML parser 但我不知道要导入哪个库来使用它,我如何才能找到它(记住,页面上没有显示)。

8 回复 | 直到 10 年前

diabloneo 1077 13 年前

尝试:

import HTMLParser

在python 3.0中,html parser模块已重命名为html.parser。你可以查一下这个 here

Python 3

import html.parser

python 2.2及更高版本

导入HTML分析器

Community Lee 7 年前

你可能真的想要 BeautifulSoup ,请检查链接以获取示例。

但无论如何

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

Swaroop C H 16 年前

我建议使用 Beautiful Soup 相反,它有 good documentation .

PaweÅ Hajdan 16 年前

你可能对 lxml . 它是一个单独的包,有C组件,但速度最快。它还具有非常好的API,允许您轻松地在HTML文档或列表表单中列出链接,清理HTML等等。它还可以解析格式不正确的HTML(它是可配置的)。

Cristian Ciupitu 13 年前

你也应该看看 html5lib 对于python来说,它试图以一种非常类似于Web浏览器的方式解析HTML,特别是在处理无效的HTML(占当今Web的90%以上)时。

1077 16 年前

如果你想要速度,我不推荐美味的汤。LXML的速度快得多,如果默认的解析器不起作用,您可以回到LXML的BSsoupparser中。

Antti Rasinen 16 年前

对于真实的HTML处理,我建议 BeautifulSoup . 它很好,可以减轻很多痛苦。安装容易。

Eric Leschinski Mr. Napik 10 年前

下面有一个示例链接( http://docs.python.org/2/library/htmlparser.html ,它只是不适用于原始的python或python3。它必须是上面写的python2。

推荐文章

tryingmybest09 · 设置出生日期排序不正确

2 年前

Zheng · 在Python中,使用与导入的库同名的别名的目的是什么?

2 年前

Dane234345 · 从另一个文件中的函数导入变量

2 年前

MBF · PHP导入/解析XML文件内容保存到数据库

2 年前

gbizz · 导出/导入请求。通过express从一个html文件到另一个html文件的身体形状数据

2 年前

benroths · PyQt5/Python3参考qss文件

2 年前

rm.rf.etc · Jupyter笔记本电脑组织,带有可重用代码

2 年前

Murat Uzun · 在windows 10上的jupyter笔记本中导入graphviz对我不起作用,我缺少什么吗?

2 年前

artooras · 从本地文件导入到下一个文件。配置。js

2 年前

ash · 在Solr中索引JSON文件名和JSON内容

6 年前