代码之家 › 专栏 › 技术社区 › Rafael Ribeiro

网页抓取:在没有网页的情况下对网站页面进行迭代,可以使用Python和请求编辑url

python-requests web-scraping python-3.x

Rafael Ribeiro · 技术社区 · 7 年前

我正在从中提取数据 this reseller site for cars ,但我找不到一种方法来遍历这些页面。我通常通过修改url中的一些索引进行迭代,但在该站点的url中没有任何页面的索引

下面是一个示例代码,说明了当我可以通过编辑url来迭代页面时,我通常会做什么:

import requests as req

url = "https://www.seminovosunidas.com.br/veiculos/page:{}?utm_source=afilio&utm_medium=display&utm_campaign=maio&utm_content=ron_ambos&utm_term=120x600_promocaomaio_performance_-_-"
indice_pagina = 1
dados = {}
r = req.get(url.format(indice_pagina))
print(r.text)

1 回复 | 直到 7 年前

Usama Jamil 7 年前

我觉得你是个新手。每个div中都有链接,你可以在这个路径中找到它,并迭代更多页面

#resultadoPesquisa > div:nth-child(1) > a

然后获取具有如下链接的herf属性

/Paginas/detalhes-do-carro.aspx?o=fmKOUbLvWxA%3d

您可以将其附加到url以请求产品

这就是这样

complete_url = 'https://seminovos.localiza.com' + '/Paginas/detalhes-do-carro.aspx?o=fmKOUbLvWxA%3d'

如果有任何问题,请发表评论

推荐文章

and · Python模拟-请求。Session()获取请求断言错误,未接听调用

1 年前

Arbixus · 我正试图为联想司机创建一个司机剪贴簿,我在这一点上遇到了困难

1 年前

Canberra · 从网站上删除纬度和经度

1 年前

Advenn · 如何用python向visa-api发送请求

1 年前

RADIO BUTIK · 在引号中插入变量[重复]

1 年前

Mr. Ivan · 如何在bltindex.com上从折线图中提取数据?

1 年前

Dsp guy sam · 尝试使用Python请求读取NSE上市前网站时请求超时

1 年前

Tomer Fikler · 如何在没有硒的情况下使用Python处理百思买登录页上的国家选择?

1 年前

daeda · 如何处理多部分/混合请求

1 年前

prashanth manohar · 使用Python从URL下载Excel文件

1 年前