代码之家  ›  专栏  ›  技术社区  ›  Joe

scala中的容错XML分析

  •  2
  • Joe  · 技术社区  · 15 年前

    我希望能够解析不一定格式良好的XML。例如,我会寻找一个模糊的而不是严格的解析器,能够从嵌套不良的标记中恢复。我可以自己写,但值得先问一下。

    更新:

    我要做的是从HTML中提取链接和其他信息。对于格式良好的XML,我可以使用scala XML API。在XML格式错误的情况下,最好以某种方式将其转换为正确的XML(以某种方式),并以相同的方式处理它,否则我必须拥有两组完全不同的函数来处理文档。

    很明显,因为输入格式不好,我正试图创建一个格式良好的树,所以必须进行一些启发式的操作(例如当您看到 <parent><child></parent> 你会关闭 <child> 当你看到 <儿童与成人; 你忽略了它)。但这当然不是一个正确的语法,所以没有正确的方法来做。

    8 回复  |  直到 12 年前
        1
  •  7
  •   Daniel Spiewak    15 年前

    Tag Soup

    <parent>
        <child>
        </parent>
    </child>
    

        2
  •  2
  •   Daniel C. Sobral    15 年前

        3
  •  2
  •   Hbf    13 年前
        4
  •  1
  •   Wim Coenen    15 年前
        5
  •  1
  •   HRJ    15 年前
        6
  •  1
  •   Adrian Mouat    15 年前

        7
  •  0
  •   Wilfred Springer    14 年前
        8
  •  0
  •   Community omersem    7 年前