代码之家  ›  专栏  ›  技术社区  ›  bignano

将数据从BigQuery和/或云存储GCS读取到Dataproc中

  •  0
  • bignano  · 技术社区  · 7 年前

    我正在将BigQuery中的数据读取到dataproc spark集群中。如果在我的例子中,BigQuery表中的数据最初是从GCS加载的,那么最好直接将GCS中的数据读取到spark cluster中,因为BigQuery connector for dataproc(newAPIHadoopRDD)首先将数据下载到Google云存储桶中?这两种方法之间有什么利弊?

    1 回复  |  直到 7 年前
        1
  •  0
  •   Dennis Huo    7 年前

    使用BigQuery连接器最适合于您希望尽可能多地抽象出GCS导出/导入,并且不希望显式管理GCS内的数据集的情况。