代码之家  ›  专栏  ›  技术社区  ›  banjollity

如何通过编程检查HTML文档

  •  7
  • banjollity  · 技术社区  · 16 年前

    文字 或者一个带有 . 我需要保留HTML文档中的任何格式(合理地说,尊重<b>标记是必须的,像<span style=“blah”>这样的CSS是很好的选择)。

    Document document = new Document( Size.A4, Aspect.PORTRAIT );
    
    document.setFont( "Helvetica", 20, Font.BOLD );
    document.insert( "some string" )
    document.setBold( true );
    document.insert( "A bold string" );
    

    因此(我认为)我需要某种HTML解析器,我可以检查插入到文档中的字符串和样式。

    有谁能建议一个好的图书馆或一个合理的方法来解决这个问题?平台是Java

    5 回复  |  直到 5 年前
        1
  •  2
  •   Craig Angus karan    16 年前

    HTMLparser 是一个很好的HTML解析器。

    我用它在我的一个项目上解析HTML。

    <br> 标签应该不难解析

    CssSelectorNodeFilter

        2
  •  1
  •   Vinze    16 年前

    如果HTML是“格式良好的XML”(XHTML),为什么不使用XML解析器(如Xerces),然后以编程方式检查DOM树呢。

        3
  •  0
  •   Diodeus - James MacFarlane    16 年前

    AdobeAcrobatPro允许您通过HTTP抓取站点,并且在保存样式和布局方面做得非常好。我没有从API方面使用它,但它可能值得研究。

        4
  •  0
  •   Kibbee    16 年前

    Winnovative 提供了一个很好的解决方案。

        5
  •  0
  •   Tim Howland    16 年前

    查看 flying saucer xhtml renderer -它们将格式良好的XHTML文件呈现为PDF格式,并允许您使用CSS控制输出。