代码之家 › 专栏 › 技术社区 › damian

spark:partition.txt.gz文件并转换为parquet

apache-spark scala

damian · 技术社区 · 6 年前

我需要转换一个文件夹中的所有文本文件,这些文件被gzip压缩为parquet。我想知道我是否需要先把他们枪毙。另外,我想把每个文件分成100个部分。这就是我目前所拥有的:

sc.textFile("s3://bucket.com/files/*.gz").repartition(100).toDF()
    .write.parquet("s3://bucket.com/parquet/")

这是对的吗?我遗漏了什么吗? 谢谢。

1 回复 | 直到 6 年前

philantrovert 6 年前

不需要单独解压缩文件。直接读取gzip文件的唯一问题是您的读取不会被并行化。这意味着,不管文件大小,每个文件只能有一个分区,因为 gzip 不是可拆分压缩编解码器。

如果单个文件大于特定大小(2GB?),则可能会遇到问题。因为spark的分区大小有一个上限。

除此之外,您的代码在功能上看起来还不错。

推荐文章

Geoffrey · Pyspark:将数据帧保存到多个具有单个文件特定大小的镶木地板文件中

1 年前

Bruno Peixoto · Spark群集CI管道构建失败

1 年前

codebot · 将df从pandas转换为PySpark时会删除列名

1 年前

mcsilvio · 在foreach中组织联接的最佳方式是什么?

1 年前

Dhruv · 在sbt控制台上运行Spark

1 年前

Leonard · Pyspark:JSON到Pyspark数据帧

1 年前

billie class · 将列中的值重写为列表中的下一个值

2 年前

Calcutta · Google Colab中的Spark SQL在大数据上失败

2 年前

Doraemon · PySpark:使用不同值的字符串类型列创建聚合列

2 年前

OdiumPura · 使用JDBC(Sql server)查询tempview

2 年前