![]() |
1
7
我建议你 BeautifulSoup 用于HTML擦除。您还需要告诉它将HTML实体转换为相应的Unicode字符,例如:
(如果标准
codecs
模块包含了一个用于此的编解码器,这样您就可以
编辑: 另一个解决方案: python开发人员fredrik lundh(elementtree等的作者)已经 a function to unsecape HTML entities 在他的网站上,使用十进制、十六进制和命名实体(BeautifulSoup不使用十六进制)。 |
![]() |
2
2
试用使用 BeautifulSoup . 它应该能做到这一点,并为您提供一个格式良好的DOM。 This blog 参赛似乎取得了一些成功。 |
![]() |
3
0
|
![]() |
July · 如何定义数字间隔,然后四舍五入 1 年前 |
![]() |
user026 · 如何根据特定窗口的平均值(行数)创建新列? 1 年前 |
|
Ashok Shrestha · 需要追踪特定的颜色线并获取坐标 1 年前 |
![]() |
Nicote Ool · 在FastApi和Vue3中获得422 1 年前 |
|
Abdulaziz · 如何对集合内的列表进行排序[重复] 1 年前 |
![]() |
asmgx · 为什么合并数据帧不能按照python中的预期方式工作 1 年前 |