代码之家 › 专栏 › 技术社区 › VojtÄch

在gcp的google bucket上运行数据处理任务

google-storage-api google-cloud-storage google-cloud-platform kubernetes

0

VojtÄch · 技术社区 · 6 年前

我们的谷歌存储桶里有很多大文件(~GB)。我想处理这些文件并生成新文件。具体来说,这些是JSON文件,我想从中提取一个字段并将一些文件连接到一个字段中。

我可以在kubernetes中编写一些作为pods运行的脚本,这些脚本将连接到bucket,并从那里和后面传输数据。但我发现它很难看——是否有专门为桶中的数据处理而设计的东西?

1 回复 | 直到 6 年前

1

2

Praveen Sripati 6 年前

闻起来像个大数据问题。

使用大数据软件,比如 Apache Spark 用于处理大型文件。因为,这些数据存在于谷歌云中,所以会推荐 Google Cloud Dataproc . 另外,K8S上的大数据是WIP,建议暂时离开K8S。将来可能会在K8上使用大数据。更多关于K8S大数据的信息( here 和 here )

通过您的解决方案(使用K8S和手工代码),所有的容错都必须手动处理。但是,在Apache Spark的情况下,会自动处理故障容限(节点故障、网络故障等)。

综上所述,我建议暂时不要考虑K8,把重点放在解决问题的大数据上。