代码之家 › 专栏 › 技术社区 › S. N

scala spark rdd连接两个具有相同ID的表

rdd apache-spark scala

-1

S. N · 技术社区 · 6 年前

我有以下RDD:

case class Rating(user_ID: Integer, movie_ID: Integer, rating: Integer, timestamp: String)
case class Movie(movie_ID: Integer, title: String, genre: String)

我用scala把它们连接在一起,比如:

val m = datamovie.keyBy(_.movie_ID)
val r = data.keyBy(_.movie_ID)
val mr = m.join(r)

我的结果是 RDD[(Int, (Movie, Rating))] 例如,如何打印分级为5的电影的磁贴。我不确定如何使用用join创建的新RDD!

1 回复 | 直到 6 年前

Zoe - Save the data dump å¼ ç¾¤å³° 6 年前

将它们转换为Spark数据帧并执行连接。你有什么特别的理由要保留他们的RDD吗?

val m = datamovie.toDF
val r = data.toDF
val mr = m.join(r, Seq("movie_id"), "left").where($"rating" === "5").select($"title")

推荐文章

davidzxc574 · 将字符串缩放为字符

2 年前

yic_l · 什么是“!”在这个函数中是什么意思?

2 年前

Jelly · Scala:用于理解递归未来

2 年前

to.mane · Scala—如何使用接收对象作为参数的构造函数创建类

2 年前

bbgghh · 在scala中连接两个列表时如何处理不匹配的键

2 年前

OdiumPura · 使用JDBC(Sql server)查询tempview

3 年前

Iheb Mar · 卡夫卡制作人/消费者粉碎每一秒的API调用

3 年前

B. Bal · 在Scala中重用类成员

3 年前

RomanGoltsov · Scala、Cassandra、Quill、Need impl logget批处理模式

3 年前

S.Hashiba · 哪个名称空间是正确的,“com.typesafe.sbt”还是“com.github.sbt”?

3 年前