代码之家  ›  专栏  ›  技术社区  ›  byInduction

LinkedIn抓取未获取所有数据

  •  0
  • byInduction  · 技术社区  · 8 年前

    从linkedin网站,如: https://www.linkedin.com/company/10073529?trk=tyah&trkInfo=clickedVertical%3Acompany%2CclickedEntityId%3A10073529%2Cidx%3A1-1-1%2CtarId%3A1461132316737%2Ctas%3Adastrong%20

    我正在努力找回

    与数据li迷你配置文件id关联的链接

    a class=“new miniprofile container”href=“…”data li url=“…”数据li miniproile id=“…>

    它的父母是。。。

    这就是我的代码到目前为止的样子:

    import requests
    from bs4 import beautifulsoup
    
    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.content, "html.parser")
    for link in soup.find_all("a"):
        print(link.get('href'))
    

    我最初只是寻找一个class=“newminiprofilecontainer”,但它返回了一个空数组。我想原因是我喝汤的时候。prettify()(返回所有html抓取数据),它只是不包含任何子内容

    我觉得问题与LinkedIn工程师设置的安全块有关,但我想知道是否有办法获取这些URL,或者是否有其他方法获取这些URL。

    1 回复  |  直到 8 年前
        1
  •  1
  •   alecxe    8 年前

    您应该使用 LinkedIn REST API 相反有相关的公司概要文件相关端点,您可以尝试使用REST API资源管理器 here .还有一个 python-linkedin 客户端,它还具有 Company API 零件记录。