代码之家  ›  专栏  ›  技术社区  ›  nate

将SparkR数据帧转换为H2O帧

  •  2
  • nate  · 技术社区  · 7 年前

    我见过转换R的例子 data.frames

    我知道可以使用 sparklyr rsparkling 创建h2o框架,但我没有使用HIVE或Hadoop, Sparkyr公司 rsparkling公司 .

    相反,我的目标是将 sdf 由此:

    set.seed(123)
    df<- data.frame(ColA=rep(c("dog", "cat", "fish", "shark"), 4), ColB=rnorm(16), ColC=rep(seq(1:8),2))
    sdf<- SparkR::createDataFrame(df)
    

    对此:

    as.h2o(sdf, destination_frame = "hsdf") # fails, came from Spark (SparkR)
    as.h2o(df, destination_frame = "hdf") # succeeds, but this is a regular R data.frame
    

    希望有人已经找到了一种方法来使用SparkR可以提供的功能来实现这一点。我认为这对R用户来说是一个巨大的恩惠。

    2 回复  |  直到 7 年前
        1
  •  1
  •   Erin LeDell    7 年前

    在这两种模式中,都不支持在H2O和Spark帧之间进行本机转换 h2o 斯巴克 包装。你必须使用 (这取决于 Sparkyr公司 )或者从Spark数据帧进行转换->R数据。框架->H2O框架。

    你提到Hadoop和HIVE。。。只是澄清一下,这两项都不是使用的要求 rsparkling::as_h2o_frame() .

        2
  •  0
  •   Joni Hoppen    5 年前

    1. 在csv(文件夹csv)上保存spark数据帧

    2. 使用应用功能打开每个csv文件,使用包Rio导入

      df00<-做呼叫(“rbind”,tmp)

    3. 使用“df00”作为数据帧,根据需要使用,,

    希望这对你们有用!收集并作为。数据根据使用的数据类型,帧太弱。

    切尔斯