代码之家 › 专栏 › 技术社区 › mihi

如何从HTML中去除不重要的空白

whitespace html java

mihi · 技术社区 · 16 年前

我必须比较不同版本的HTML页面的格式和文本更改。不幸的是,创建它们的人/公司使用某种HTML编辑器,每次都重新包装所有的HTML(并添加大量的空白),这使得很难区分它们。因此,我正在寻找一种工具(最好是Java库),它可以以不重要的空间和新行被删除的方式重新格式化我的HTML。

这意味着

<h1>First Headline</h1> <h2>Second headline</h2>

之间的空间 </h1> 和 <h2> 应该移除,但在

<b>formatted</b> <i>text</i>

不能删除空白。我不在乎 <pre> , <textarea> 或 <script> 块,也不是关于可以改变行为的CSS空白属性-我只是在寻找一个能去除大部分不必要空白的解决方案(最好留太多空白而不是太少空白)。

(我已经折叠了多个空格,并在标记前重新添加了换行符而不是空格,以使文本更易读-但是仍然有太多的情况,例如标题或表格单元格/行之间的新行会破坏我的简单“解决方案”。)

2 回复 | 直到 16 年前

Brian Agnew 16 年前

JTidy 可能在这里有用。它是一个HTML解析器,可以解析HTML(并且可以容忍格式错误的HTML),并将HTML表示为一个DOM,您可以重写其中的内容,以删除您不感兴趣的内容。

Thorbjørn Ravn Andersen 16 年前

如果这只是内部使用,那么考虑使用XHTML转换器,然后规范化XML。然后比较结果就容易多了。

推荐文章

code-geek · Jquery根据单选按钮选择隐藏或显示文本字段

1 年前

Jamie · 在CSS链接的文件名中添加Jinja占位符

1 年前

ptownbro · 重叠分区标签,同时保持以下所有分区和内容就位

1 年前

Luke Frost IEng MIMechE · Bootstrap 5.3在Div中的项目位置没有如我所期望的那样显示

1 年前

Reegan · 使用Angular ngFor指令在html中渲染嵌套对象值

1 年前

wqyutv · 当找不到文件时,任何破坏错误的东西都不会出现,我该怎么解决这个问题?

1 年前

user29519291 · 为不同的变量创建一个带有可重用Click函数的简单菜单

1 年前

Gukkey · 在React中明确隐藏日期类型输入后,如果我单击父div,如何显示日期选择器?

1 年前

Lorenzo Bertolaccini · 在Angular项目中通过对话框后,在控制台中显示但在HTML中不显示的数据数组

1 年前

john Rizzo · 按钮背景颜色、悬停和活动状态存在问题

1 年前