代码之家  ›  专栏  ›  技术社区  ›  Marc

如何使用AWS胶水从web服务端点提取数据开始?

  •  2
  • Marc  · 技术社区  · 6 年前

    更多的源数据来自我需要定期轮询的Web服务端点。一旦获得数据,我就可以使用pyspark执行传统的ETL,并最终将数据写入S3和红移。

    我不知道如何进行初始提取,甚至不知道我应该在AWS Glue文档中寻找什么。“源”web服务端点是否可以被视为数据目录的表?

    任何例子都会更好。

    1 回复  |  直到 6 年前
        1
  •  1
  •   nicholas.hauschild    6 年前

    我不认为“源”webservice端点可以被视为Glue数据目录中的表。但是,要让它发挥作用应该不会太难。

    1. 设置定期轮询此Web Service端点的内容,以检索您要查找的数据。轮询的数据应放入S3“源”存储桶/位置。
    2. 在Glue数据目录中设置一个表,该表描述从步骤1轮询的数据。根据这些数据的外观,您可能可以使用爬虫来创建表,但我在手动创建表方面有更好的经验(最初,最终使用CloudFormation)。
    3. 使用作业创建向导(通过 Add Job 按钮),按照提示创建作业。这里的重要部分是确保将“源”设置为步骤2中的表设置。
    4. 创建作业后,您将能够修改脚本(Python或Scala)以应用您选择的ETL。

    This page from the AWS documentation 在更详细地描述流程方面做得很好。