代码之家 › 专栏 › 技术社区 › Dawid

Aws雅典娜、拼花和谓词下推

prestodb amazon-athena parquet amazon-web-services

Dawid · 技术社区 · 6 年前

我试图理解划分和谓词下推之间的关系。假设我们使用AWS雅典娜来处理以拼花格式存储在S3中的数据。数据集由 date 和 type 柱。它还包含 subtype 列,如果 类型 等于x。

我正在尝试执行下面的查询

SELECT date, type, subtype FROM tablename WHERE date = '01012001' AND subtype IS NOT NULL;

查询扫描的数据量与

SELECT date, type, subtype FROM tablename WHERE date = '01012001' AND type <> X AND subtype IS NOT NULL;

但是,后一个查询速度明显更快(约30%)。

我想知道引擎盖下面发生了什么。我的猜测是,在第二种情况下,执行器只扫描给定类型和日期的分区,而在第一种情况下,它尝试扫描满足日期要求的所有文件,而不管其类型如何。但这需要更多的时间,因为跳过了具有空子类型的记录,实际的查询成本是相同的。

如果有人能证实我的猜测,如果这是错误的,纠正这一点将是最感激的。

1 回复 | 直到 6 年前

Piotr Findeisen 6 年前

你提到数据是分区的 date 和 type .

在 WHERE date = '01012001' AND type <> X AND subtype IS NOT NULL 查询类型,Presto(Athena)只需要访问相关文件。

在 WHERE date = '01012001' AND subtype IS NOT NULL 查询类型,Presto将访问给定的所有文件 日期 (对所有 类型 价值观)。由于存储在拼花文件元数据中的信息,可以跳过文件,因为它不包含非- NULL 价值观 subtype . 但是,获取元数据仍然需要时间,因为在访问存储(S3)时会有一个延迟。

推荐文章

geo909 · AWS Athena:具有非标准文件结构的S3存储桶分区表

2 年前

Julien Navarre · 通过MacOS上的unixODBC连接到雅典娜

3 年前

idan · 带有IGNORE NULLS表达式的First_value函数在Athena AWS上不起作用

3 年前

ignorance · 从Glue Cloudformation模板划分Athena表

6 年前

bheavner · 如何在Presto/AWS Athena上进行内部连接?

7 年前

panc · AWS Athena的分区数据导致S3中有许多小文件

7 年前

Louis · 如何从Lambda的CloudFormation访问Athena QueryString?

7 年前

Louis · 是否可以为AWS Athena查询指定参数?

7 年前

Data_101 · 在Amazon Athena中创建表时转换时间戳

7 年前

Suhas Kumar · 从Javascript sdk访问AWS Athena

7 年前