代码之家  ›  专栏  ›  技术社区  ›  Rafael Ribeiro

网页抓取:在没有网页的情况下对网站页面进行迭代,可以使用Python和请求编辑url

  •  0
  • Rafael Ribeiro  · 技术社区  · 6 年前

    我正在从中提取数据 this reseller site for cars ,但我找不到一种方法来遍历这些页面。我通常通过修改url中的一些索引进行迭代,但在该站点的url中没有任何页面的索引

    下面是一个示例代码,说明了当我可以通过编辑url来迭代页面时,我通常会做什么:

    import requests as req
    
    url = "https://www.seminovosunidas.com.br/veiculos/page:{}?utm_source=afilio&utm_medium=display&utm_campaign=maio&utm_content=ron_ambos&utm_term=120x600_promocaomaio_performance_-_-"
    indice_pagina = 1
    dados = {}
    r = req.get(url.format(indice_pagina))
    print(r.text)
    
    1 回复  |  直到 6 年前
        1
  •  0
  •   Usama Jamil    6 年前

    我觉得你是个新手。每个div中都有链接,你可以在这个路径中找到它,并迭代更多页面

    #resultadoPesquisa > div:nth-child(1) > a
    

    然后获取具有如下链接的herf属性

    /Paginas/detalhes-do-carro.aspx?o=fmKOUbLvWxA%3d
    

    您可以将其附加到url以请求产品

    这就是这样

    complete_url = 'https://seminovos.localiza.com' + '/Paginas/detalhes-do-carro.aspx?o=fmKOUbLvWxA%3d'
    

    如果有任何问题,请发表评论