代码之家  ›  专栏  ›  技术社区  ›  Yuriy Bondaruk

在执行ETL作业之前,是否需要运行AWS Glue crawler来检测新数据?

  •  9
  • Yuriy Bondaruk  · 技术社区  · 6 年前

    AWS Glue docs明确指出,爬虫程序从源(JDB或s3)中提取元数据信息,并填充数据目录(创建/更新DB和相应的表)。

    然而,如果我们知道没有方案/分区更改,我们是否需要定期运行爬虫程序来检测源中的新数据(即s3上的新对象、db表中的新行)还不清楚。

    那么,在运行ETL作业之前是否需要运行爬虫程序才能获取新数据?

    2 回复  |  直到 6 年前
        1
  •  6
  •   RobinL    6 年前

    AWS Glue将自动检测S3存储桶中的新数据,只要它位于您现有的文件夹(分区)中。

    如果将数据添加到新文件夹(分区),则需要使用 MSCK REPAIR TABLE mytable; .

        2
  •  0
  •   Ricardo Mayerhofer    6 年前

    有必要在作业之前运行爬虫程序。