1
0
为了简单起见,我将把解析(x)HTML的潜在恼人问题外包给一个专用库: 下面是一个简单的例子 lxml.html :
|
2
0
这仍然是这个谷歌查询的主要回应,也许是因为我对这个问题的理解不够好。 我要找的(也许还有OP要找的)是XML转储,而不是HTML转储。 因此,为了解析并获得我需要的输出,我使用了lxml.html,如@tim mcnamara所说。
|
3
-1
嗯,<img…>是正确的HTML,<img…/gt;不是。不知道HTML5怎么说,但是XHTML在活着之前大部分已经死了。 不过,我认为最简单的事情是正则表达式:
对于其他的事情,很困难。我将解析代码,将标记添加到img节点,并从ast编写HTML。解析应该可以使用 http://code.google.com/p/html5lib/ . 但要获得有效的高度和宽度,您必须阅读图像(使用pil),这可能不值得您这么做。 |
user3127554 · Powershell HTML未格式化 7 年前 |
user1922364 · 从一个页面获取所有链接 7 年前 |
GonzaloXavier · 提取R中<option>标记的内容 7 年前 |
Shafizadeh · 为什么查询与DOM不匹配? 7 年前 |
Athapali · 如何使用jquery获取变量中元素的文本? 8 年前 |
Mona G · html中响应头的jmeter正则表达式提取器 8 年前 |
Paul · Jsoup-从元素中提取html 8 年前 |