代码之家 › 专栏 › 技术社区 › tghw megawac

HTML实体代码到文本[重复]

beautifulsoup html python

tghw megawac · 技术社区 · 15 年前

< & )到普通字符串(例如<&)?

cgi.escape() 将转义字符串(很差),但没有 unescape() .

4 回复 | 直到 15 年前

Stefan Collier 7 年前

(蟒蛇2 Docs )

>>> import HTMLParser
>>> h= HTMLParser.HTMLParser()
>>> h.unescape('alpha &lt; &beta;')
u'alpha < \u03b2'

(3) Docs )

>>> import html.parser
>>> h = html.parser.HTMLParser()
>>> h.unescape('alpha &lt; &beta;')
'alpha < \u03b2'

htmlentitydefs 有文档记录,但需要您自己做很多工作。

如果您只需要XML预定义的实体(lt、gt、amp、quot、apos),那么可以使用minidom来解析它们。如果您只需要预定义的实体,而不需要数字字符引用,您甚至可以使用普通的旧字符串替换来提高速度。

tghw megawac 15 年前

一开始我忘了给它贴标签,但我用的是BeautifulSoup。

翻阅文档,我发现:

soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)

这正是我所希望的。

Benjamin Pollack Stefan Rusek 15 年前

vartec 15 年前

htmlentitydefs 单元这是我的旧代码,它起作用了,但我相信有更干净、更具Python风格的方法可以做到:

e2c = dict(('&%s;'%k,eval("u'\\u%04x'"%v)) for k, v in htmlentitydefs.name2codepoint.items())

推荐文章

yash agarwal · Python Selenium-如何基于span标记内的文本提取元素?

2 年前

Amar · 漂亮汤错误:“NoneType”对象没有属性“find\u all”

2 年前

ihonestlydontKnow · Python(BeautifulSoup)仅1个结果

2 年前

ARH · 如何使用Selenium识别网站中使用的所有标签

2 年前

Kevin Rodgers Jr. · Python BeautifulSoup:在in select语句中排除其他标记

2 年前

Jensen Holm · 在非常大的字符串中查找链接时遇到问题

2 年前

koshiboto · 使用python(bs4)从段落中获取第一个不位于括号之间的常规链接

2 年前

LaddieMawery · Beautifulsoup获取嵌套跨元素时遇到问题

2 年前

Ventorro · Python和Web抓取的新手。抓取一个HTML表格——但是它并没有显示所有的列

2 年前

aphexlog · 正在尝试使用BeautifulSoup将新行附加到表体中的第一行

2 年前