代码之家  ›  专栏  ›  技术社区  ›  GaiusSensei

操作HTML文件

  •  1
  • GaiusSensei  · 技术社区  · 15 年前

    我正在开发一个类似浏览器的应用程序,它从一个站点(任何网站)获取HTML,然后在其上应用一个样式脚本来更改某些元素(就像greasemonkey)。

    我最初的计划是使用xpath和xmldocument解析HTML,但是有更好的方法吗?

    事先谢谢!

    PS>HTML+C上的便利提示、技巧和链接将非常棒~^^

    5 回复  |  直到 15 年前
        1
  •  5
  •   Gregoire    15 年前

    使用HTML Agligility包。你可以在这里找到它: http://www.codeplex.com/htmlagilitypack

        2
  •  4
  •   Arsen Mkrtchyan    15 年前

    HTML并不总是遵循XML规则,例如,HTML中有一些标记可能没有结束标记,因此xpath和xdocument有时会抛出错误。IE API使您能够做到这一点(请参见 here ,您也可以找到第三方解析器(请参见 this o this )

        3
  •  0
  •   Johnco    15 年前

    我强烈建议使用XSLT。这允许您将所有转换数据保留在代码之外,因此,如果要转换的HTML被修改,或者您希望更改布局,则很容易对其进行更改。

    非更少,如果使用HTML而不是XHTML,请注意可能的错误。当然,使用一个整洁的图书馆可以帮助你克服这个问题。

        4
  •  0
  •   Benjamin Oakes    15 年前

    我真的建议为您选择的编程语言使用一个包来处理HTML解析的所有奇怪之处。我以前在Ruby中使用过hpricot,它让事情变得轻而易举。

        5
  •  0
  •   FKDev    15 年前

    如果您希望能够根据HTML的内容浏览它,那么xpath是一个不错的选择。但是你必须先清理HTML。可以使用HTML Tidy将HTML转换为XHTML。在此过程中,您可以修改页面的呈现方式。但这似乎是你项目的目的,所以这不是什么大问题。