代码之家 › 专栏 › 技术社区 › Louis Yang dontloo

在pyspark(2.2.0)中将csv文件写入AWS时,如何分配访问控制列表(acl)?

acl pyspark amazon-s3 csv amazon-web-services

Louis Yang dontloo · 技术社区 · 6 年前

我知道我可以输出我的火花数据帧到AWS S3作为一个csv文件

df.repartition(1).write.csv('s3://my-bucket-name/df_name')

我的问题是,是否有一种简单的方法可以将此文件的访问控制列表(acl)设置为 'bucket-owner-full-control' 当使用pyspark将其写入S3时?

1 回复 | 直到 5 年前

stevel 6 年前

不知道EMR S3连接器;在ASF S3A连接器中,您设置了选项 fs.s3a.acl.default 打开连接时:不能逐个文件进行设置

Durga P. Kapa 5 年前

在构建Spark会话之后,可以通过Hadoop配置设置访问控制列表(ACL)。

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('YourAppName').getOrCreate()

设置ACL如下:

spark.sparkContext.hadoopConfiguration().set('fs.s3.canned.acl', 'BucketOwnerFullControl')

推荐文章

igbins09 · 在shell bash脚本中使用jq将单行JSON转换为csv

2 年前

Ujjawal Pandey · 如何为矢量化数据帧创建行CSV?

2 年前

greens trial · 在Python中编辑CSV文件名以附加到当前文件名

2 年前

n328 · 如何将指数格式的值从csv读取到numpy数组中?

2 年前

Bilal Sedef · 如何快速组合特定列上的多个csv文件?

2 年前

christhebliss · 如何在一个csv列中写入分号分隔的值?

2 年前

Max J. · 用整数作为键将dict写入csv

2 年前

Sarai · Python中的CSV文件处理和计算值

2 年前

BabaZuri · 应用筛选器时将csv中的行添加到数组

2 年前

user18796731 · 在Python中以CSV格式保存数组元素

2 年前