1
20
首先,这些不是微软Word实体 是 UTF-8。您正在将它们转换为HTML实体。 写东西的方式就像:
将是:
但是python已经为您想要进行的转换类型提供了内置功能:
这将替换字符串中的utf-8代码
如果要在可能的情况下用命名实体替换这些数字实体:
像这样使用它:
要完成答案,示例中处理文件的等效代码如下所示:
请注意,这个答案针对的是python 2.5;对于python 3+来说,unicode的情况大不相同。 我也同意Bobince在下面的评论:如果你只需要将文本保留为utf-8格式,并用正确的内容类型和字符集发送,那么就这样做;如果你需要它是ASCII格式,那么就坚持使用数字实体实际上不需要使用命名实体。 |
2
3
|
3
2
清除Word HTML的最佳选择是使用 HTML Tidy 它有一个模式。有 a few Python wrappers 如果需要以编程方式进行,可以使用。 |
4
1
正如S.Lott所说,python代码非常类似,唯一的区别就是函数调用/语句。
我认为python没有直接等价于
编辑:没关系,有一个更简单的方法:
字符串替换与
输出和
正如您所看到的,这两个版本看起来几乎完全相同。 |
Rilke · 用JavaScript输出HTML实体 8 年前 |
Hwende · 如何将Unicode特殊字符转换为html实体? 8 年前 |
iceytoa1 · 用户登录后,是否尝试在导航栏中显示用户的用户名? 10 年前 |