代码之家  ›  专栏  ›  技术社区  ›  vent

分析随机网页

  •  0
  • vent  · 技术社区  · 14 年前

    我需要解析一堆随机页面,并将它们添加到数据库中。我正在考虑使用正则表达式,但我想知道是否有任何“特殊”技术(除了在已知文本/标记之间查找内容)。内容更像(并非总是):

    Some Title
    Text related to Title
    

    我想我不需要提取完整的文本,但一些方法知道在哪里的标题/段落和提取的内容从那里。内容本身可能有图片/链接,我想保留。

    3 回复  |  直到 14 年前
        2
  •  0
  •   S.Lott    14 年前
        3
  •  0
  •   Daniel Cassidy    14 年前

    您需要使用适当的HTML解析器,并通过解析器API(或DOM)提取您感兴趣的元素。

    因为我不知道你在用什么语言编程,所以很难推荐一个解析器,但是一些著名的解析器是 Jericho 对于Java,以及 Beautiful Soup 对于Python。