代码之家  ›  专栏  ›  技术社区  ›  Vojtěch

在gcp的google bucket上运行数据处理任务

  •  0
  • Vojtěch  · 技术社区  · 6 年前

    我们的谷歌存储桶里有很多大文件(~GB)。我想处理这些文件并生成新文件。具体来说,这些是JSON文件,我想从中提取一个字段并将一些文件连接到一个字段中。

    我可以在kubernetes中编写一些作为pods运行的脚本,这些脚本将连接到bucket,并从那里和后面传输数据。但我发现它很难看——是否有专门为桶中的数据处理而设计的东西?

    1 回复  |  直到 6 年前
        1
  •  2
  •   Praveen Sripati    6 年前

    闻起来像个大数据问题。

    使用大数据软件,比如 Apache Spark 用于处理大型文件。因为,这些数据存在于谷歌云中,所以会推荐 Google Cloud Dataproc . 另外,K8S上的大数据是WIP,建议暂时离开K8S。将来可能会在K8上使用大数据。更多关于K8S大数据的信息( here here )

    通过您的解决方案(使用K8S和手工代码),所有的容错都必须手动处理。但是,在Apache Spark的情况下,会自动处理故障容限(节点故障、网络故障等)。

    综上所述,我建议暂时不要考虑K8,把重点放在解决问题的大数据上。