代码之家  ›  专栏  ›  技术社区  ›  hamdog

将大查询数据流加载到空分区

  •  0
  • hamdog  · 技术社区  · 6 年前

    使用ApacheBeampython SDK,我已经建立了一个数据流,它在大查询中写入日期分区表中的各个分区。根据 this documentation 每个日期分区表都有特殊的 NULL UNPARTITIONED 分区。根据这些文件,我可以写信给 未分区的 只需将我的日期设置在过去或将来,但我如何才能写入 无效的 分区?

    我正在尝试根据数据中的值将数据加载到分区,有时字段为空。我宁愿写信给 无效的 分区而不是组成一个用于空值的日期。

    作为参考,我写了一些像这样的分区的最新操作:

    beam.io.Write(beam.io.BigQuerySink(table_id+'$20180925',
        project=project_id, dataset=dataset_id, schema=schema))
    

    我需要换什么 $20180925 要写信给 无效的 ?

    1 回复  |  直到 6 年前
        1
  •  3
  •   Pavan Edara    6 年前

    这个 无效的 分区仅在由数据中的列分区的表中可用,而不是在接收时间分区表时可用。如果要写入列分区表,则不能简单地在特定行中填充该列的值,并使用表ID(不带任何分区后缀)写入 无效的 分区。