代码之家  ›  专栏  ›  技术社区  ›  mitroberts

AWS S3 ETL工具选项

  •  0
  • mitroberts  · 技术社区  · 6 年前

    试图弄清楚我将使用什么来安排和运行作业,以便将数据移动到S3中,在其上运行脚本,然后在S3中移动数据。

    我的要求是能够从API中摄取,也可以直接从数据库中摄取。一些要摄取的格式将是XML,其他格式可以是平面文件。原始文件需要连接和转换,并转换为可以生成图形的格式。

    AWS glue作为ETL工具是什么样的?我的具体问题是,一旦创建数据源和处理部件,您是否可以在图形视图中看到已完成的管道?

    我使用了Azure Data Factory,它有一个图形用户界面来查看和监视管道,我发现这非常有用。只是想知道AWS胶水是否有类似的东西。

    如果不是,AWS S3上的Nifi会是一种很好的方法吗?

    谢谢

    2 回复  |  直到 6 年前
        1
  •  1
  •   Dennis Jaheruddin    5 年前

    如果您正在寻找最好的GUI,我会推荐NiFi。它通常与S3一起使用,并且有许多用于其他数据源的现成连接器。如果你想在AWS云之外做一些事情,那就更有趣了。

    尽管如此,我认为胶水也能完成工作。

    当您有大量AWS足迹时运行Data Factory感觉像是一种反模式。

    全面披露:未与Glue/Data Factory合作,也未为NiFi背后的驱动力Cloudera工作

        2
  •  1
  •   Aida Martinez    5 年前

    我目前正在使用AWS Glue将数据从DB提取到s3,处理数据并将其保存回Redshift/s3或通过API发送给我的客户端。AWS Glue GUI不是很好,你看不到流程图,有时你需要使用其他工具,如步骤函数、气流来协调你的工作。此外,我的大多数工作都必须使用PySpark,因为AWS的粘合方法太有限了。 与监控相关,您可以查看是否有错误,作业消耗了多少CPU和内存,读取/写入了s3字节。如果需要其他信息,需要使用logger或print将其发送到日志。