代码之家 › 专栏 › 技术社区 › Neil McGuigan

如何从.NET中的许多HTML文件读取xpath值?

html-parsing xpath .net

Neil McGuigan · 技术社区 · 16 年前

我在一个文件夹中有大约5000个HTML文件。我需要使用xpath、close和store-in(sql-server)db循环、打开、获取10个值。

使用.NET读取xpath值最简单的方法是什么?

X路径应该相当稳定。

请提供读取一个值的示例代码,例如/html/head/title/text()。

谢谢

1 回复 | 直到 16 年前

Brian Lyttle 16 年前

我想你应该调查一下 HTML Agility Pack . 它是一个HTML解析器而不是一个XML解析器,并且更适合于此任务。如果有什么不符合正在解析的XML,那么解析器将抛出并异常。使用HTML解析器可以让您对输入文件有更多的回旋余地。

演示如何使用所有href(link)属性执行操作的示例:

 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
    HtmlAttribute att = link["href"];
    att.Value = FixLink(att);
 }

我不接近编译器,但您需要的示例如下:

string title = doc.DocumentNode.SelectSingleNode("//title").InnerText;

推荐文章

user3127554 · Powershell HTML未格式化

8 年前

user1922364 · 从一个页面获取所有链接

8 年前

GonzaloXavier · 提取R中<option>标记的内容

8 年前

Deepa MG · 如何将参数发送到另一个PHP网站的AJAX POST方法并获取JSON信息

8 年前

Anurag Sharma · 从自由流动的文本中删除html标记以形成独立的句子

9 年前

Shafizadeh · 为什么查询与DOM不匹配?

9 年前

Yannis Dran · 提取存储在磁盘上的html文件的url和名称,并分别打印它们-Python

9 年前

Athapali · 如何使用jquery获取变量中元素的文本?

9 年前

Mona G · html中响应头的jmeter正则表达式提取器

10 年前

Paul · Jsoup-从元素中提取html

10 年前