代码之家 › 专栏 › 技术社区 › Kalpesh

如何将GroupedDataset保存到parquet或将其转换为toDF

apache-spark-dataset group-by apache-spark scala

Kalpesh · 技术社区 · 7 年前

我正在使用spark 1.6.1。

是否有任何API可用于将GroupDataset保存到拼花文件。

E、我有一个自定义对象“Procedure”,我已经将数据帧转换为Procedure对象。之后,我在patientID上进行分组。我想将DDS分组到拼花文件中,或者将其作为数据帧传递给其他函数。我没有为存储获取任何API,也没有将其转换为数据帧。

val procedureDs: Dataset[Procedure] = joinDf.select("patientid", "patientprocedureid", "procedurecode").as[Procedure]
val groupedDs:GroupedDataset[Long, Procedure] = procedureDs.groupBy{ x => x.patientid }

应用地图组后

val a = groupedDs.mapGroups{ case (k,vs) => { (k, vs.toSeq)}}

它给出了以下错误:

Exception in thread "main" java.lang.UnsupportedOperationException: No Encoder found for com.....PatientDiagnosis
- array element class: "com....PatientDiagnosis"
- field (class: "scala.collection.Seq", name: "_2")
- root class: "scala.Tuple2"

我试图给出明确的编码器

val a = groupedDigDs.mapGroups((k,vs) =>  (k, vs.toSeq))(org.apache.spark.sql.Encoders.bean(classOf[(Long, Seq[com....PatientDiagnosis])]))

然后错误更改为:

 java.lang.UnsupportedOperationException: Cannot infer type for class scala.Tuple2 because it is not bean-compliant

1 回复 | 直到 7 年前

zero323 little_kid_pea 7 年前

等同于 GroupedData ( RelationalGroupedDataset 在Spark 2中。x) , GroupedDataset ( KeyValueGroupedDataset 在Spark 2中。x) 必须在保存之前进行聚合。

如果你的目标是另一个 groupByKey 您可以使用 mapGroups :

val groupedDs: GroupedDataset[K, V] = ???
// ... { case (k, xs) => (k, xs.toSeq) }  to preserve key as well
groupedDs.mapGroups { case (_, xs) => xs.toSeq }

推荐文章

davidzxc574 · 将字符串缩放为字符

2 年前

yic_l · 什么是“!”在这个函数中是什么意思?

2 年前

Jelly · Scala:用于理解递归未来

2 年前

to.mane · Scala—如何使用接收对象作为参数的构造函数创建类

2 年前

bbgghh · 在scala中连接两个列表时如何处理不匹配的键

2 年前

OdiumPura · 使用JDBC(Sql server)查询tempview

2 年前

Iheb Mar · 卡夫卡制作人/消费者粉碎每一秒的API调用

3 年前

B. Bal · 在Scala中重用类成员

3 年前

RomanGoltsov · Scala、Cassandra、Quill、Need impl logget批处理模式

3 年前

S.Hashiba · 哪个名称空间是正确的,“com.typesafe.sbt”还是“com.github.sbt”?

3 年前