代码之家 › 专栏 › 技术社区 › Marc

如何使用AWS胶水从web服务端点提取数据开始?

aws-glue pyspark amazon-web-services web-services

Marc · 技术社区 · 7 年前

更多的源数据来自我需要定期轮询的Web服务端点。一旦获得数据,我就可以使用pyspark执行传统的ETL,并最终将数据写入S3和红移。

我不知道如何进行初始提取,甚至不知道我应该在AWS Glue文档中寻找什么。“源”web服务端点是否可以被视为数据目录的表?

任何例子都会更好。

1 回复 | 直到 7 年前

nicholas.hauschild 7 年前

我不认为“源”webservice端点可以被视为Glue数据目录中的表。但是,要让它发挥作用应该不会太难。

设置定期轮询此Web Service端点的内容,以检索您要查找的数据。轮询的数据应放入S3“源”存储桶/位置。
在Glue数据目录中设置一个表,该表描述从步骤1轮询的数据。根据这些数据的外观,您可能可以使用爬虫来创建表,但我在手动创建表方面有更好的经验(最初,最终使用CloudFormation)。
使用作业创建向导(通过 Add Job 按钮),按照提示创建作业。这里的重要部分是确保将“源”设置为步骤2中的表设置。
创建作业后,您将能够修改脚本(Python或Scala)以应用您选择的ETL。

This page from the AWS documentation 在更详细地描述流程方面做得很好。

推荐文章