代码之家 › 专栏 › 技术社区 › Xiaowei Cheng

找不到td scrapyspider的xpath[已关闭]

scrapy-spider scrapy html-table xpath python

-4

Xiaowei Cheng · 技术社区 · 7 年前

我正在尝试创建一个蜘蛛来获取以下信息 10, 861, Wednesday 从 td 接下来的许多 td公司 . 请看图片。非常感谢你!!!

enter image description here

1 回复 | 直到 7 年前

furas 7 年前

如果你需要全部 td 然后使用 xpath('//td')

import lxml.html

html = '''
<tr>
    <td>10</td>
    <td>$681</td>
    <td>Wednesday</td>
    <td>other</td>
    <td>data</td>
</tr>
'''

soup = lxml.html.fromstring(html)
all_td = soup.xpath('//td')

for td in all_td:
    print(td.text)

后果

10
$681
Wednesday
other
data

如果你只需要 td公司 然后获取全部,然后使用索引ie [2] ,或切片 [2:]

for td in all_td[2:]:
    print(td.text)

后果

Wednesday
other
data

您只能使用 [3] 直接在xpath中 xpath('//td[3]')

import lxml.html

html = '''
<tr>
    <td>10</td>
    <td>$681</td>
    <td>Wednesday</td>
</tr>
'''

soup = lxml.html.fromstring(html)
date = soup.xpath('//td[3]/text()')[0]

print(date)

后果

Wednesday

推荐文章

Monica · 使用Selenium和Python在没有url的情况下单击下载文件

2 年前

JobProcessTask · 如何读取此xpath表达式?

2 年前

ÐÐ½Ð´ÑÐµÐ¹ Ð¡Ð¼Ð¸ÑÐ½Ð¾Ð² · 通过xplpath从xml加载字段时出现问题

2 年前

johns7843 · 如何使用xpath收集所有HREF?Selenium-Python

2 年前

js1069 · 如何通过匹配第一个元素中的文本来获取第二个元素。在Selenium中,Python

2 年前

Tony · IMPORTXML的正确XPATH(用于Yahoo Finance)

2 年前

Astro-Otter · 在DOMXpath中使用preg_match来匹配文本contgent

3 年前

mathias5986 · HTML Selenium Python点击href链接

3 年前

lord stock · 硒在iframe中引发与下拉菜单相互作用的非接触元素异常

3 年前

Tyler Moore · 如何在Selenium for Python中使用多个属性(包括部分字符串匹配)和find_元素

3 年前