代码之家 › 专栏 › 技术社区 › blakiseskream

SparkYR我可以把格式和路径选项传递到SparkWrite表中吗?或者使用saveAsTable和spark write orc?

sparklyr apache-spark-sql hive apache-spark r

blakiseskream · 技术社区 · 6 年前

假设我想写一个spark数据框, irisDf 兽人保存到hive metastore

在斯帕克我会这样做,

irisDf.write.format("orc")
    .mode("overwrite")
    .option("path", "s3://my_bucket/iris/")
    .saveAsTable("my_database.iris")

sparklyr 我可以用 spark_write_table

data("iris")
iris_spark <- copy_to(sc, iris, name = "iris")
output <- spark_write_table(
   iris
  ,name = 'my_database.iris'
  ,mode = 'overwrite'
)

但这不允许我设置 path 或 format

我也可以用 spark_write_orc

spark_write_orc(
    iris
  , path = "s3://my_bucket/iris/"
  , mode = "overwrite"
)

saveAsTable 选项

现在,我可以用 invoke

  sdf <- spark_dataframe(iris_spark)
  writer <- invoke(sdf, "write")
  writer %>% 
    invoke('format', 'orc') %>% 
    invoke('mode', 'overwrite') %>% 
    invoke('option','path', "s3://my_bucket/iris/") %>% 
    invoke('saveAsTable',"my_database.iris")

但我想知道是否有什么可以代替 格式 路径 选择进入 火花表 可保存 火花写作

1 回复 | 直到 6 年前

MichaelChirico 6 年前

path 可以使用 options 参数,相当于打电话给本地人 DataFrameWriter

spark_write_table(
  iris_spark, name = 'my_database.iris', mode = 'overwrite', 
  options = list(path = "s3a://my_bucket/iris/")
)

默认情况下,在Spark中,这将创建一个存储为 Parquet 在 路径 partition_by 参数)。

到今天为止,还没有这样的格式选项,但是一个简单的解决方法是设置 spark.sessionState.conf.defaultDataSourceName 属性,在运行时

spark_session_config(
  sc, "spark.sessionState.conf.defaultDataSourceName", "orc"
)

或者在创建会话时。

推荐文章

MattRgx · 配置单元中的Regexp将一列拆分为3列

2 年前

mishalhaneef · 如何更新蜂箱颤振数据

2 年前

Bhanuchander Udhayakumar · 为什么spark sql的cpu利用率高于hive?

6 年前

sectechguy · Radoop出现拒绝访问问题。将RapidMiner与Cloudera Quickstart虚拟机连接

6 年前

Nabil · 配置单元查询数组作为字段

6 年前

Pat Doyle · HiveQL-连接在Select语句上创建的列

6 年前

Parth Shiras · 在HQL中,如何基于百分位数筛选表,然后再根据随机样本筛选表?

6 年前

aiman · Hive-2.3.2 metastore with MySQL无法启动

6 年前

user · 失败:SemanticException组织。阿帕奇。hadoop。蜂箱ql.metadata。HiveException:java。lang.RuntimeExcept

6 年前

N_M · 主键和外键约束在配置单元中如何工作?

6 年前