代码之家  ›  专栏  ›  技术社区  ›  fanchyna

wget不在amazon aws s3上下载文件

  •  -1
  • fanchyna  · 技术社区  · 6 年前

    我试图从以下网页下载所有幻灯片

    https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html
    

    我使用的命令是

    wget --no-check-certificate --no-proxy -r -l 3 'https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html'
    

    我只能下载HTML和一些PNG文件。这些幻灯片托管在amazon s3上,但我无法使用上面的命令对它们进行爬网。终端上显示的信息是

    不过,我可以使用下面的命令直接下载这些幻灯片

    wget http://spark-public.s3.amazonaws.com/nlp/slides/intro.pdf
    

    有人知道为什么吗?如何使用一个命令下载该页上的所有幻灯片?

    1 回复  |  直到 6 年前
        1
  •  0
  •   John Hanley    6 年前

    你需要做的就是所谓的“html抓取”。这意味着您需要一个html页面,然后解析页面内的html链接。解析后,您可以下载、编目等文档(网页)中的链接。

    StackOverflow文章非常受欢迎:

    Options for HTML scraping?