1
7
JTidy 可能在这里有用。它是一个HTML解析器,可以解析HTML(并且可以容忍格式错误的HTML),并将HTML表示为一个DOM,您可以重写其中的内容,以删除您不感兴趣的内容。 |
2
1
如果这只是内部使用,那么考虑使用XHTML转换器,然后规范化XML。然后比较结果就容易多了。 整洁的: http://tidy.sourceforge.net/ (输出xhtml选项- http://tidy.sourceforge.net/docs/quickref.html#output-xhtml ) Canonicalize: http://en.wikipedia.org/wiki/Canonical_XML |