代码之家  ›  专栏  ›  技术社区  ›  Vani4ka

Crawler4j、Jsoup和JavaScript:提取用JavaScript修改的属性值

  •  0
  • Vani4ka  · 技术社区  · 6 年前

    我使用Crawler4j和Jsoup对网站进行爬网,它可以很好地处理HTML文本,但也有一些重要的内容,默认值是用CSS硬编码的,然后用JavaScript动态设置的。 例如,我有 我需要宽度值,它在CSS中硬编码为10px,但在JavaScript中修改为5px。

    有没有一种方法可以在不使用其他爬虫的情况下获取此值?还是一个简单的选择? 我已经有很多代码了,所以如果有可能用Crawler4j重写的话,我不想重写所有的东西。

    我希望我的问题足够清楚,并提前感谢您的帮助!

    1 回复  |  直到 6 年前
        1
  •  4
  •   rzo1    6 年前

    这是不可能的 crawler4j 也不适用于 jsoup 。它们都只处理静态HTML内容。

    在官方GitHub存储库中,有几个与动态JavaScript执行相关的开放问题: #49 ,则, #197 #220

    为了实现您的目标,您需要基于 Selenium ,则, CasperJS 和/或 PhantomJS ,然后可用于高级爬网,包括JavaScript执行。