代码之家 › 专栏 › 技术社区 › pooja

如何在Spark Scala中将两个数组/数据集的大小修改为相同?

apache-spark-dataset apache-spark scala

pooja · 技术社区 · 6 年前

我有两个数组/数据集。

scala> data1.collect
res2: Array[Array[Double]] = Array(Array(1.0, 100.0), Array(0.7, 100.0), Array(0.8, 50.0))

scala> data2.collect
res3: Array[Array[Double]] = Array(Array(0.25, 0.0, 0.0), Array(1.0, 125.0, 0.0), Array(0.5, 0.0, 20.0), Array(0.5, 0.0, 15.0))

我想要 data1 和 data2 大小相同(内部阵列的数量应相同,以 数据1 内部阵列的数量为3且在 数据2 是4)。我想加一个 Array(0.0, 0.0) 或是同样数量的 阵列(0.0,0.0) 在里面 数据1 因为它存在于 数据2 .

请告诉我怎么做。

1 回复 | 直到 6 年前

Shaido MadHadders 6 年前

首先,找出需要添加到 data1 数据集。使用示例中的一些数据:

val data1 = Seq(Seq(1.0, 100.0), Seq(0.7, 100.0), Seq(0.8, 50.0))
  .toDF("col1").as[Array[Double]]
val data2 = Seq(Seq(0.8, 50.0), Seq(1.0, 125.0, 0.0), Seq(0.5, 0.0, 20.0), Seq(0.5, 0.0, 15.0))
  .toDF("col1").as[Array[Double]]

val diff = data2.count() - data1.count()

在这种情况下 diff 将具有值1。

接下来,使用适当数量的行创建一个新的数据集,其中只包含 Array(0.0, 0.0) 这应该附在后面。然后将此新数据集添加到 数据1 通过使用 union :

val appendData = Seq.fill(diff.toInt)(Array(0.0, 0.0)).toDF("col1").as[Array[Double]]
val data3 = data1.union(appendData)

结果:

+------------+
|        col1|
+------------+
|[1.0, 100.0]|
|[0.7, 100.0]|
| [0.8, 50.0]|
|  [0.0, 0.0]|
+------------+

推荐文章

davidzxc574 · 将字符串缩放为字符

2 年前

yic_l · 什么是“!”在这个函数中是什么意思?

2 年前

Jelly · Scala:用于理解递归未来

2 年前

to.mane · Scala—如何使用接收对象作为参数的构造函数创建类

2 年前

bbgghh · 在scala中连接两个列表时如何处理不匹配的键

2 年前

OdiumPura · 使用JDBC(Sql server)查询tempview

2 年前

Iheb Mar · 卡夫卡制作人/消费者粉碎每一秒的API调用

3 年前

B. Bal · 在Scala中重用类成员

3 年前

RomanGoltsov · Scala、Cassandra、Quill、Need impl logget批处理模式

3 年前

S.Hashiba · 哪个名称空间是正确的,“com.typesafe.sbt”还是“com.github.sbt”?

3 年前