代码之家 › 专栏 › 技术社区 › GaiusSensei

操作HTML文件

html c#

GaiusSensei · 技术社区 · 15 年前

我正在开发一个类似浏览器的应用程序,它从一个站点(任何网站)获取HTML,然后在其上应用一个样式脚本来更改某些元素(就像greasemonkey)。

我最初的计划是使用xpath和xmldocument解析HTML,但是有更好的方法吗?

事先谢谢!

PS>HTML+C上的便利提示、技巧和链接将非常棒~^^

5 回复 | 直到 15 年前

Gregoire 15 年前

使用HTML Agligility包。你可以在这里找到它: http://www.codeplex.com/htmlagilitypack

Arsen Mkrtchyan 15 年前

HTML并不总是遵循XML规则,例如,HTML中有一些标记可能没有结束标记,因此xpath和xdocument有时会抛出错误。IE API使您能够做到这一点(请参见 here ,您也可以找到第三方解析器(请参见 this o this )

Johnco 15 年前

我强烈建议使用XSLT。这允许您将所有转换数据保留在代码之外,因此,如果要转换的HTML被修改,或者您希望更改布局,则很容易对其进行更改。

非更少,如果使用HTML而不是XHTML,请注意可能的错误。当然,使用一个整洁的图书馆可以帮助你克服这个问题。

Benjamin Oakes 15 年前

我真的建议为您选择的编程语言使用一个包来处理HTML解析的所有奇怪之处。我以前在Ruby中使用过hpricot,它让事情变得轻而易举。

FKDev 15 年前

如果您希望能够根据HTML的内容浏览它,那么xpath是一个不错的选择。但是你必须先清理HTML。可以使用HTML Tidy将HTML转换为XHTML。在此过程中,您可以修改页面的呈现方式。但这似乎是你项目的目的,所以这不是什么大问题。

推荐文章

Softly · 单选按钮未按预期取值

1 年前

NovoMannen · 导航中的下拉菜单在内容后面重叠

1 年前

Thirumal isireddy · 在导航栏顺风css中,img被扭曲,而不是将元素推到旁边

1 年前

eXor420 · 如何在脚本标记中使用导出的函数?

1 年前

Hadi · 如何在无效和有效输入中选择用于更改样式的psoudo元素(after)

1 年前

IonicMan · 剑道网格在宽度过大时不显示某些列

1 年前

Kernier · 如何将数学公式支持添加到StacksEditor?

1 年前

Md. Ibrahim · CSS网格项溢出小屏幕滚动

1 年前

Arjun V Srivatsa · 如何将系统时区信息分配给javascript中的变量?

1 年前

Akshay mek · Vscode扩展建议不适用于某些文件夹

1 年前