1
2
一般来说,Glue很糟糕,但这让我很惊讶,直到我看到Achyut的评论:您的JSON格式不正确。 JSON是一种数据格式,而不是文件格式。没有格式正确的JSON文件,因为规范没有涵盖这一点。Spark、Hadoop和Athena等工具要求JSON数据位于每行一个文档的文件中,因为这样可以方便地高效地处理数据。有时这被称为“JSON流”(这不是一个好名字,因为我们谈论的是文件),或“行分隔的JSON”。 我想你最好还是手动创建表。您可以在文档中找到一个示例: https://docs.aws.amazon.com/athena/latest/ug/json-serde.html 您还应该使用适当的JSON序列化库来编写JSON,这样就不会出现像逗号而不是冒号这样的语法错误。 |
Marc · 如何使用AWS胶水从web服务端点提取数据开始? 6 年前 |
mitroberts · AWS S3 ETL工具选项 6 年前 |
Cherry · 默认情况下,aws glue处理新数据吗? 7 年前 |