代码之家 › 专栏 › 技术社区 › Lounges

在python中解码html编码字符串

xml html python

Lounges · 技术社区 · 15 年前

我有以下字符串。。。

"Scam, hoax, or the real deal, he&#8217;s gonna work his way to the bottom of the sordid tale, and hopefully end up with an arcade game in the process."

我需要把它变成这根绳子。。。

骗局,骗局,或是真正的交易, 他会努力工作到最后肮脏故事的最底层,以及希望以一个街机游戏结束在这个过程中。

这是相当标准的HTML编码,我一辈子都不知道如何在python中转换它。

我发现: GitHub

它非常接近于工作,但是它不输出撇号,而是输出一些非unicode字符。

下面是GitHub脚本的输出示例。。。

他会一路走到底的肮脏的故事,并希望结束在这个过程中有一个街机游戏。

1 回复 | 直到 15 年前

Community CDub 7 年前

您试图做的是所谓的“HTML实体解码”,它包含在许多过去的堆栈溢出问题中,例如:

下面是使用 Beautiful Soup 用于解码示例的HTML解析库:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from BeautifulSoup import BeautifulSoup

string = "Scam, hoax, or the real deal, he&#8217;s gonna work his way to the bottom of the sordid tale, and hopefully end up with an arcade game in the process."
s = BeautifulSoup(string,convertEntities=BeautifulSoup.HTML_ENTITIES).contents[0]
print s

骗局、恶作剧或真正的交易,他他会一路走到底的肮脏的故事,并希望结束在这个过程中有一个街机游戏。

推荐文章

JobProcessTask · 如何读取此xpath表达式?

2 年前

Sven K · 无法访问XML数据结构中的“数据”:“名称属性>数据”

2 年前

sklal · 在Python中从S3存储桶读取xml文件——只存储最后一个文件的内容

2 年前

MBF · PHP导入/解析XML文件内容保存到数据库

2 年前

TenkMan · SQL Server XML嵌套值查询表单990

2 年前

lam62 · 如何使用XML从XHTML/XML中提取相关数据。dom。小型化

2 年前

Mohan.Murali.Peddini · XSLT模板循环记录

2 年前

mayo0o · 检查元素的总和

2 年前

crichavin · 排除XSLT的(1.0)行返回和文本输出中的额外空白

2 年前

Crimp · 从Excel导出后,在XML文件和PowerShell输出中发现奇怪字符:

2 年前