代码之家  ›  专栏  ›  技术社区  ›  thalm

如何解析子字符串中带有粗体、斜体和下划线的HTML标记

  •  3
  • thalm  · 技术社区  · 14 年前

    我在C中为二维图形框架创建了某种文本呈现工具。

    现在我试图解析一个包含特定HTML标记的文本,比如:

    "Hello <b>world</b>!" 
    

    但是解析代码越来越难看,我想,一定有一些lib可以做到这一点。最后,它应该输出一个数据结构数组,比如:

    string text;
    bool IsBold;
    bool IsItalic;
    bool IsUnderlined;
    ...
    

    string text;
    FontStyle FontStyle;
    

    有人知道这样的解析器吗?

    谢谢!

    3 回复  |  直到 12 年前
        1
  •  3
  •   Oded    14 年前

    这个 HTML Agility Pack 是一个很好的HTML解析器(也可以解析片段)。

        2
  •  0
  •   Paul Fleming    12 年前

    Tidy.net 是一个很棒的工具,它是源于HTML Tidy Firefox插件中使用的原始Tidy项目的端口。通过整洁运行代码,它将返回干净、兼容的HTML。

        3
  •  0
  •   Paul Fleming    12 年前

    我不知道这是如何工作的,但这里有一些HTML解析器:
    html_parse
    htmlagilitypack