代码之家 › 专栏 › 技术社区 › byInduction

LinkedIn抓取未获取所有数据

linkedin beautifulsoup web-scraping html python

byInduction · 技术社区 · 8 年前

从linkedin网站,如: https://www.linkedin.com/company/10073529?trk=tyah&trkInfo=clickedVertical%3Acompany%2CclickedEntityId%3A10073529%2Cidx%3A1-1-1%2CtarId%3A1461132316737%2Ctas%3Adastrong%20

我正在努力找回

与数据li迷你配置文件id关联的链接

a class=“new miniprofile container”href=“…”data li url=“…”数据li miniproile id=“…>

它的父母是。。。

这就是我的代码到目前为止的样子:

import requests
from bs4 import beautifulsoup

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, "html.parser")
for link in soup.find_all("a"):
    print(link.get('href'))

我最初只是寻找一个class=“newminiprofilecontainer”,但它返回了一个空数组。我想原因是我喝汤的时候。prettify()(返回所有html抓取数据),它只是不包含任何子内容

我觉得问题与LinkedIn工程师设置的安全块有关,但我想知道是否有办法获取这些URL,或者是否有其他方法获取这些URL。

1 回复 | 直到 8 年前

alecxe 8 年前

您应该使用 LinkedIn REST API 相反有相关的公司概要文件相关端点,您可以尝试使用REST API资源管理器 here .还有一个 python-linkedin 客户端,它还具有 Company API 零件记录。

推荐文章

yash agarwal · Python Selenium-如何基于span标记内的文本提取元素?

2 年前

Amar · 漂亮汤错误:“NoneType”对象没有属性“find\u all”

2 年前

ihonestlydontKnow · Python(BeautifulSoup)仅1个结果

2 年前

ARH · 如何使用Selenium识别网站中使用的所有标签

2 年前

Kevin Rodgers Jr. · Python BeautifulSoup:在in select语句中排除其他标记

2 年前

Jensen Holm · 在非常大的字符串中查找链接时遇到问题

2 年前

koshiboto · 使用python(bs4)从段落中获取第一个不位于括号之间的常规链接

2 年前

LaddieMawery · Beautifulsoup获取嵌套跨元素时遇到问题

2 年前

Ventorro · Python和Web抓取的新手。抓取一个HTML表格——但是它并没有显示所有的列

2 年前

aphexlog · 正在尝试使用BeautifulSoup将新行附加到表体中的第一行

2 年前