代码之家 › 专栏 › 技术社区 › fanchyna

wget不在amazon aws s3上下载文件

wget https amazon-s3 amazon-web-services

-1

fanchyna · 技术社区 · 6 年前

我试图从以下网页下载所有幻灯片

https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html

我使用的命令是

wget --no-check-certificate --no-proxy -r -l 3 'https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html'

我只能下载HTML和一些PNG文件。这些幻灯片托管在amazon s3上,但我无法使用上面的命令对它们进行爬网。终端上显示的信息是

不过,我可以使用下面的命令直接下载这些幻灯片

wget http://spark-public.s3.amazonaws.com/nlp/slides/intro.pdf

有人知道为什么吗?如何使用一个命令下载该页上的所有幻灯片?

1 回复 | 直到 6 年前

John Hanley 6 年前

你需要做的就是所谓的“html抓取”。这意味着您需要一个html页面,然后解析页面内的html链接。解析后,您可以下载、编目等文档(网页)中的链接。

StackOverflow文章非常受欢迎:

推荐文章

Anna Berezko · AWS匹配不支持的TLD域名和S3 bucket静态网站

1 年前

R0bert2 · Ansible-使用with_项创建列表

2 年前

renzCNFT · 与s3相比,workdocs有什么优势

2 年前

Eva · Github与AWS codecommit镜像和同步的操作

2 年前

Heritage Squad · 如何使节点组模块中的每个实例都使用特定的安全组?

2 年前

Christian Townsend · 如何从Terraform中的ElastiCache获取cache_节点地址?

2 年前

Hasham · 如何将多个本地文件上载到s3中的一个文件

2 年前

shesupplypi · 如何将一个应用程序或服务的无服务器输出引用到另一个应用程序或服务?

2 年前

sebas flores · S3 URL-使用python下载

2 年前

Ibrahim Patel · AWS CloudWatch Error“尝试获取图形数据时出错。”

2 年前