代码之家 › 专栏 › 技术社区 › Yuriy Bondaruk

在执行ETL作业之前,是否需要运行AWS Glue crawler来检测新数据?

aws-glue amazon-web-services

Yuriy Bondaruk · 技术社区 · 6 年前

AWS Glue docs明确指出,爬虫程序从源(JDB或s3)中提取元数据信息,并填充数据目录(创建/更新DB和相应的表)。

然而,如果我们知道没有方案/分区更改,我们是否需要定期运行爬虫程序来检测源中的新数据(即s3上的新对象、db表中的新行)还不清楚。

那么,在运行ETL作业之前是否需要运行爬虫程序才能获取新数据?

2 回复 | 直到 6 年前

RobinL 6 年前

AWS Glue将自动检测S3存储桶中的新数据,只要它位于您现有的文件夹(分区)中。

如果将数据添加到新文件夹(分区),则需要使用 MSCK REPAIR TABLE mytable; .

Ricardo Mayerhofer 6 年前

有必要在作业之前运行爬虫程序。

推荐文章

ignorance · 从Glue Cloudformation模板划分Athena表

6 年前

markwatson · AWS Glue:如何在输出中添加具有源文件名的列?

6 年前

Marc · 如何使用AWS胶水从web服务端点提取数据开始?

6 年前

Yuriy Bondaruk · 在执行ETL作业之前,是否需要运行AWS Glue crawler来检测新数据?

6 年前

mitroberts · AWS S3 ETL工具选项

6 年前

Zeitgeist · AWS Glue:使用pyspark从脚本中获取job\u id

6 年前

villasv · 在CloudFormation上指定Glue::Crawler和JdbcTargets

6 年前

Cherry · 默认情况下,aws glue处理新数据吗?

7 年前

Girish Bhat · 如何以编程方式读取AWS Glue数据目录表架构

7 年前

Harish G. · AWS Glue java。lang.OutOfMemoryError:Java堆空间

7 年前