代码之家 › 专栏 › 技术社区 › banjollity

如何通过编程检查HTML文档

parsing html java

banjollity · 技术社区 · 17 年前

文字或者一个带有 . 我需要保留HTML文档中的任何格式(合理地说,尊重<b>标记是必须的,像<span style=“blah”>这样的CSS是很好的选择)。

Document document = new Document( Size.A4, Aspect.PORTRAIT );

document.setFont( "Helvetica", 20, Font.BOLD );
document.insert( "some string" )
document.setBold( true );
document.insert( "A bold string" );

因此(我认为)我需要某种HTML解析器,我可以检查插入到文档中的字符串和样式。

有谁能建议一个好的图书馆或一个合理的方法来解决这个问题?平台是Java

5 回复 | 直到 6 年前

Craig Angus karan 17 年前

HTMLparser 是一个很好的HTML解析器。

我用它在我的一个项目上解析HTML。

<br> 标签应该不难解析

CssSelectorNodeFilter

Vinze 17 年前

如果HTML是“格式良好的XML”(XHTML),为什么不使用XML解析器(如Xerces),然后以编程方式检查DOM树呢。

Diodeus - James MacFarlane 17 年前

AdobeAcrobatPro允许您通过HTTP抓取站点,并且在保存样式和布局方面做得非常好。我没有从API方面使用它,但它可能值得研究。

Kibbee 17 年前

Winnovative 提供了一个很好的解决方案。

Tim Howland 17 年前

查看 flying saucer xhtml renderer -它们将格式良好的XHTML文件呈现为PDF格式,并允许您使用CSS控制输出。

推荐文章

code-geek · Jquery根据单选按钮选择隐藏或显示文本字段

1 年前

Jamie · 在CSS链接的文件名中添加Jinja占位符

1 年前

ptownbro · 重叠分区标签,同时保持以下所有分区和内容就位

1 年前

Luke Frost IEng MIMechE · Bootstrap 5.3在Div中的项目位置没有如我所期望的那样显示

1 年前

Reegan · 使用Angular ngFor指令在html中渲染嵌套对象值

1 年前

wqyutv · 当找不到文件时,任何破坏错误的东西都不会出现,我该怎么解决这个问题?

1 年前

user29519291 · 为不同的变量创建一个带有可重用Click函数的简单菜单

1 年前

Gukkey · 在React中明确隐藏日期类型输入后,如果我单击父div,如何显示日期选择器?

1 年前

Lorenzo Bertolaccini · 在Angular项目中通过对话框后,在控制台中显示但在HTML中不显示的数据数组

1 年前

john Rizzo · 按钮背景颜色、悬停和活动状态存在问题

1 年前