代码之家 › 专栏 › 技术社区 › Tyler Rinker DaniM

rvest:xpath在当前节点上获取文本,并删除子节点

rvest xpath r

Tyler Rinker DaniM · 技术社区 · 6 年前

我有一些嵌套在div标记中的文本,我想获取这些文本。特别是以下MWE的地址( Hillsgrove, Missouri 13231-1123 ). 在这个div标签中还有我想忽略的其他标签。我只想在第一个div标记之后获取当前div标记处的文本 <br /> . 至少我希望返回副标题+地址,而不返回其他子节点文本,但理想情况下,我希望文本仅用于地址。

我正在使用 rvest 来自R的包来完成此任务,但这似乎是一个更一般的xpath问题。

MWE公司

library(xml2); library(rvest); library(dplyr)

minimal <- read_html(
"<!doctype html>
<meta charset=utf-8>
<title>blah</title>
<div class=\"span4\"> 
    <a href='http://www.stuff.com'>
        <strong>Sub Title</strong>
     </a>
  <br />
  Hillsgrove, Missouri 13231-1123<br />
  <span id=\"phone\">(5555) 555-5555</span><br />
  <a target=\"_blank\" href='http://www.morestuff.com'>www.morestuff.com</a>
  <br /><br />
</div>"
)

minimal %>%
    html_nodes(xpath = '//div[@class="span4"]') %>%
    html_text() 

## [1] " \n    \n        Sub Title\n     \n  \n  Hillsgrove, Missouri 13231-1123(5555) 555-5555www.morestuff.com\n  "

预期结果

## Hillsgrove, Missouri 13231-1123

我会满足于

## " \n    \n        Sub Title\n     \n  \n  Hillsgrove, Missouri 13231-1123"

1 回复 | 直到 6 年前

MrFlick 6 年前

如果需要当前节点的文本节点,请使用 text()

minimal %>%
  html_nodes(xpath = '//div[@class="span4"]/text()') %>%
  html_text() 
# [1] " \n  "                               "\n  "                               
# [3] "\n  Hillsgrove, Missouri 13231-1123" "\n  "

你能看到它确实返回了换行符和空白,但这应该很容易去掉。

推荐文章

Monica · 使用Selenium和Python在没有url的情况下单击下载文件

2 年前

JobProcessTask · 如何读取此xpath表达式?

2 年前

ÐÐ½Ð´ÑÐµÐ¹ Ð¡Ð¼Ð¸ÑÐ½Ð¾Ð² · 通过xplpath从xml加载字段时出现问题

2 年前

johns7843 · 如何使用xpath收集所有HREF?Selenium-Python

2 年前

js1069 · 如何通过匹配第一个元素中的文本来获取第二个元素。在Selenium中,Python

2 年前

Tony · IMPORTXML的正确XPATH(用于Yahoo Finance)

2 年前

Astro-Otter · 在DOMXpath中使用preg_match来匹配文本contgent

2 年前

mathias5986 · HTML Selenium Python点击href链接

2 年前

lord stock · 硒在iframe中引发与下拉菜单相互作用的非接触元素异常

2 年前

Tyler Moore · 如何在Selenium for Python中使用多个属性(包括部分字符串匹配)和find_元素

2 年前