代码之家 › 专栏 › 技术社区 › Nick Fortescue

从网页中获取国际字符?[复制品]

unicode parsing html python

Nick Fortescue · 技术社区 · 16 年前

这个问题已经有了答案:

Decode HTML entities in Python string? 5答

我想使用简单的python regexp从足球(soccer)网页上获取一些信息。问题是,第一个小伙子,Ritalo,这样的球员会以&196;&196;Ritalo的身份出现!
也就是说,HTML将转义标记用于特殊字符,如&196;

是否有一种简单的方法可以将HTML读取到正确的python字符串中?如果它是XML/XHTML,那么很容易,解析器就可以做到。

3 回复 | 直到 16 年前

dF. 16 年前

我建议你 BeautifulSoup 用于HTML擦除。您还需要告诉它将HTML实体转换为相应的Unicode字符,例如:

>>> from BeautifulSoup import BeautifulSoup    
>>> html = "<html>&#196;&#196;RITALO!</html>"
>>> soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)
>>> print soup.contents[0].string
ÃÃRITALO!

(如果标准 codecs 模块包含了一个用于此的编解码器,这样您就可以 "some_string".decode('html_entities') 但不幸的是,事实并非如此!)

编辑: 另一个解决方案: python开发人员fredrik lundh(elementtree等的作者)已经 a function to unsecape HTML entities 在他的网站上,使用十进制、十六进制和命名实体(BeautifulSoup不使用十六进制)。

Jacob Rigby 16 年前

试用使用 BeautifulSoup . 它应该能做到这一点,并为您提供一个格式良好的DOM。

This blog 参赛似乎取得了一些成功。

Nick Fortescue 16 年前

我自己没试过,但你试过了吗

http://zesty.ca/python/scrape.html ?

它似乎有一个方法htmldecode(文本),可以做你想要的。

推荐文章

July · 如何定义数字间隔,然后四舍五入

1 年前

Community wiki · 对象名称前的单下划线和双下划线的含义是什么?

1 年前

Brian Johnson · 为什么在Python中列出字典列表会引发TypeError?[已关闭]

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

Ashok Shrestha · 需要追踪特定的颜色线并获取坐标

1 年前

Nicote Ool · 在FastApi和Vue3中获得422

1 年前

NeoExceptCodeBad · 如果我有很多垂直线,我如何找到它们的边缘?

1 年前

Abdulaziz · 如何对集合内的列表进行排序[重复]

1 年前

user2743931 · 带有src目录的Python setup.py

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前