代码之家 › 专栏 › 技术社区 › KAT

如何使用节点木偶绘制器从页面获取所有链接?

puppeteer web-crawler web-scraping node.js javascript

KAT · 技术社区 · 6 年前

我正在尝试用node构建一个网络爬虫程序,并遇到了木偶程序包,它看起来非常适合我想要的东西。我的最终结果是收集一个页面的所有链接、所有文本内容,然后是页面本身的屏幕截图。

我运行了下面的链接,它似乎收集了大量的链接,但是在实际的站点检查中有一些链接,它没有收集。

const puppeteer = require('puppeteer');

module.exports = () => {
  (async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto('https://pixabay.com/en/columbine-columbines-aquilegia-3379045/');
    await page.screenshot({ path: 'myscreenshot.png', fullPage: true });
    let text = await page.$eval('*', el => el.innerText.split(' '));
    text = text.map(string => {
      return string.replace(/[^\w\s]/gi, '');
    });

      let hrefs = await page.evaluate(() => {
          const links = Array.from(document.querySelectorAll('a'))
          return links.map(link => link.href);
      });
    console.log('done');

    await browser.close();
  })();
};

例如,此链接: /go/?t=image-details-shutterstock&id=699165328 不在href数组中。更糟糕的是,这些链接会引出站点,这正是我想做的事情,否则我只能爬行一个站点。

我的脚本只显示一些链接有什么原因吗?查询选择器是否太窄或拒绝某些链接?

1 回复 | 直到 6 年前

ewwink 6 年前

链接是由 onclick 事件,它保存在 data-go 例如,属性

<a data-go="image-details-shutterstock&amp;id=458320033">

只需要提前准备 /go/?t= 并且得到它

return links.map(link => link.href || link.getAttribute('data-go'));

菜单也有空链接

<a><i class="icon icon_menu_user"></i></a>

推荐文章

Omega500 · AttributeError:ResultSet对象没有属性“find\u all”

2 年前

Christina Norwood · 我需要什么Python技术来获取二进制边距数据?

2 年前

mexicanRmy · Selenium Select不处理下拉元素

2 年前

yash agarwal · Python Selenium-如何基于span标记内的文本提取元素?

2 年前

Amar · 漂亮汤错误:“NoneType”对象没有属性“find\u all”

2 年前

Fadi Ft Ftena · 基于类名的Web抓取

2 年前

Amen Aziz · 熊猫中的数据被覆盖

2 年前

Amen Aziz · csv文件中的数据不提供任何信息

2 年前

Jensen Holm · 在非常大的字符串中查找链接时遇到问题

2 年前

Yungi Jeong · 在使用selenium进行web抓取后,我在csv文件中得到了奇怪的结果。。内容不是特定的内容,而是html代码

2 年前