代码之家 › 专栏 › 技术社区 › dreddy

Spark dataframe为每个现有行添加一行

explode apache-spark-sql apache-spark scala

dreddy · 技术社区 · 7 年前

我有一个包含以下列的数据框:

groupid,unit,height
----------------------
1,in,55
2,in,54

结果数据帧

groupid,unit,height
----------------------
1,in,55
2,in,54
1,cm,139.7
2,cm,137.16

我不知道如何使用spark udf和explode。感谢您的帮助。

1 回复 | 直到 6 年前

Ramesh Maharjan 7 年前

您可以创建另一个 dataframe 需要使用的更改 withColumn union 二者都 dataframes 像

import sqlContext.implicits._
import org.apache.spark.sql.functions._

val df = Seq(
  (1, "in", 55),
  (2, "in", 54)
).toDF("groupid", "unit", "height")

val df2 = df.withColumn("unit", lit("cm")).withColumn("height", col("height")*2.54)

df.union(df2).show(false)

+-------+----+------+
|groupid|unit|height|
+-------+----+------+
|1      |in  |55.0  |
|2      |in  |54.0  |
|1      |cm  |139.7 |
|2      |cm  |137.16|
+-------+----+------+

推荐文章

MIK · 星号“*”的PHP正则表达式

7 年前

Joe · 无序排列内爆数组(HTML复选框到数组)[重复]

7 年前

max · 用explode php分隔字符串

7 年前

KaoriYui · PHP在定界符的第二个实例上爆炸

7 年前

dreddy · Spark dataframe为每个现有行添加一行

7 年前

Vadim Goncharov · 如何将带分隔符的字符串转换为具有关联键的多维数组?

7 年前

user3495336 · PHP从文件路径字符串数组创建多维值列表

8 年前

Stunked · 从列表中删除密钥

8 年前

jitendrapurohit · 在php中分解不包括大括号中的“,”的字符串

8 年前

Tauras · 如何分解URL并为“/”之间的每个单词设置“a”标记?

9 年前