代码之家 › 专栏 › 技术社区 › Megrez7

当试图选择HTML节点时,“表达式必须计算为节点集”

html-agility-pack xpath vb.net

Megrez7 · 技术社区 · 6 年前

我正在尝试使用htmlagilitypack获取HTML文件的特定部分。

输入HTML文件(简化和清理):

<html>
<head>
</head>
<body>
    <section>
        <div>
        </div>
    </section>
    <section>
        <div>
        </div>
        Line 1
        Line 2 - Text here
        Line 3
        <div>
        </div>
    </section>
</body>
</html>

这是我的代码:

Dim getPage As HtmlDocument = webGet.Load(Uri)
Dim AllTextLines As HtmlNodeCollection = getPage.DocumentNode.SelectNodes("/html/body/section[2]/text()")
Dim SecondTextLine As HtmlNodeCollection = getPage.DocumentNode.SelectNodes("/html[1]/body[1]/section[2]/#text[2]")

设置的值 SecondTextLine 失败,出现此错误:

system.xml.xpath.xpathexception:表达式的计算结果必须是节点集

我想得到的是:

仅包含“第2行-此处为文本”的行
节中没有子元素的所有文本( <div> 在我的例子中)但是作为一个节点,一个包含所有文本的字符串。

我该怎么做?

编辑: 我再次添加了xpath标记,因为返回的错误直接来自 System.Xml.XPath.XPathException ,不是来自htmlagilityPack。

1 回复 | 直到 6 年前

Michael Kay 6 年前

弦 /html[1]/body[1]/section[2]/#text[2] 不是有效的xpath表达式。糟糕的错误消息,但您肯定不会期望它选择任何内容。

如果您想要第二个文本节点,那将是 /html[1]/body[1]/section[2]/text()[2] . 但是,如果您想要文本“line 2-text here”,那么您没有选择节点,而是在节点内选择字符串,因此 SelectNodes() 是要调用的错误方法。您似乎使用的是XPath1.0处理器,因此在XPath表达式本身中进行字符串操作将非常困难,通常最简单的方法是将整个节点返回到宿主语言并在那里进行字符串操作。或者切换到一个XPath2.0处理器,然后您可以使用诸如tokenize()之类的函数来分割换行边界上的文本。

推荐文章

Karl · 如何引发PrintPage的事件?

2 年前

Daniel · LINQ从列表的dataTable中提取部分匹配

2 年前

limelatte · 如何在datagridview中屏蔽特定列?

2 年前

Orsi · 选择嵌套列表的最大值和最小值。网

2 年前

D T · 如何为Excel Com设置公式?

2 年前

Lenin · 将数组中的每个元素与另一个数组中的相应元素相乘

2 年前

Christian Balabat · 从今天的日期所在的ms access数据库获取数据很热

2 年前

Jack · gridview到textbox的事件与vb中textbox的结果不匹配。网

2 年前

Bryan Max · Vb。如果车主的数据没有停车,5分钟后,网络Mysql错误停车

2 年前

Myronaz · 如何在WinForms VB中设置WebView2用户数据文件夹。网络应用?

2 年前