代码之家  ›  专栏  ›  技术社区  ›  Fadi Ft Ftena

基于类名的Web抓取

  •  -1
  • Fadi Ft Ftena  · 技术社区  · 2 年前

    我正在谷歌地图网站上做网页抓取,以获得两点之间的距离。 刮取基于类名(因为属性没有Id),因此如下所示:

    document.getElementsByClassName("UgZKXd clearfix yYG3jf selected").item("")
    

    这样做正确吗?类名是否会随着时间的推移而改变?如果是的话,有什么建议我应该如何实现这一点? 我不是前端开发人员,所以我找不到答案,提前谢谢!。

    1 回复  |  直到 2 年前
        1
  •  1
  •   SaC-SeBaS    2 年前

    几年来,我一直把抓取网页作为一种业余爱好,我在WhatsApp中用selenium自动化了一些任务,据我所知,界面会不时更新,所以我所做的是以一些不经常更改的元素作为起点,比如 frame 或a div 元素,并从该起点查找我想要的元素。尽量避免使用完整路径,因为您必须不时更新代码,如果构建页面的框架使用基于组件的框架,也要避免使用CSS的类名,因为如果代码得到更新,这些类名往往会发生一些变化,而您显示的类名似乎就是这样。