代码之家 › 专栏 › 技术社区 › Severin

XPath用于获取两个标题之间的标记

wikipedia web xpath xml html

Severin · 技术社区 · 8 年前

我正在尝试编写一个小应用程序来提取维基百科页面的内容。当我第一次想到这一点时,我认为我可以只针对包含XPath内容的div,但在研究了Wikipedia如何构建它们的文章之后,我很快发现这并不容易。获取页面时分离内容的最佳方法是在两组 h2 标签。

例子: <h2>Title</h2> <div>Some Content</div> <h2>Title</h2>

在这里,我想得到 div

2 回复 | 直到 8 年前

kjhughes 8 年前

是的,您使用XPath的方法是正确的——它非常适合选择XML文档的各个部分。

例如,对于此XML,

<r>
   <h2>Title A</h2>
   <div>Some Content</div>
   <div>More Content</div>
   <h2>Title B</h2>
</r>

这个XPath,

//div[preceding-sibling::h2 = 'Title A' and following-sibling::h2 = 'Title B']

将选择此内容,

<div>Some Content</div>
<div>More Content</div>

在两者之间 h2 标题,根据需要。

更新以解决OP的自答:

对于这个新的XML示例,

<div>
    <h2><span>Summary</span></h2>
    <p>Paragraph</p>
    <ul>
        <li>List1</li>
        <li>List2</li>
        <li>List3</li>
    </ul>
    <p>Paragraph</p>

    <h2><span>Location</span></h2>
    <p>Paragraph</p>
</div>

上面我提供的XPath可以很容易地修改,

//*[preceding-sibling::h2 = 'Summary' and following-sibling::h2 = 'Location']

要选择此XML,

<p>Paragraph</p>  
<ul>
   <li>List1</li>
   <li>List2</li>
   <li>List3</li>
</ul>    
<p>Paragraph</p>

根据要求。

Severin 8 年前

在kjhughes建议的帮助下,我设法使代码工作。

我无法完成 = 'Text' 部分工作,但替换为 [text() = 'text']

这还不够,因为我需要的内容的标题是位于 span 在一个 h2 标记,所以我必须对XPath进行更多修改。

这就是我想到的:

//*[preceding-sibling::h2::following-sibling::span[text() = 'Summary'] and following-sibling::h2::following-sibling::span[text() = 'Location']]

我用 http://www.xpathtester.com/xpath 在此HTML上:

<div>
    <h2><span>Summary</span></h2>
    <p>Paragraph</p>
    <ul>
        <li>List1</li>
        <li>List2</li>
        <li>List3</li>
    </ul>
    <p>Paragraph</p>

    <h2><span>Location</span></h2>
    <p>Paragraph</p>
</div>

这给了我以下结果:

<p>Paragraph</p>
<ul>
    <li>List1</li>
    <li>List2</li>
    <li>List3</li>
</ul>
<p>Paragraph</p>

推荐文章

Omega500 · AttributeError:ResultSet对象没有属性“find\u all”

2 年前

65 sami · 在CSS中删除点而不松开调整后的形状

2 年前

Hm Elius Hossain Himel · 为什么我们要在HTML5的body元素中写header和footer元素?

2 年前

Jakub NechvÃ¡tal · js文件与esp32草图之间的数据发送

2 年前

Gustavo Vasconcellos · 用JS添加的按钮与用HTML创建的按钮不同

2 年前

Didem · 反应本机更新组件

2 年前

yiksanchan · 访问站点后如何获取传出的HTTP请求?

2 年前

Weeeen · 如何使用$_POST永久更改某些内容

2 年前

kadir Ã¶zcan · 如何从链接中隐藏文件夹名称

2 年前

Wikson · 我想在滚动时启动JS函数

2 年前