代码之家 › 专栏 › 技术社区 › Harrison

基于Spark数据帧的API中的多列过滤

spark-dataframe apache-spark-sql pyspark apache-spark python

Harrison · 技术社区 · 7 年前

我有一个数据帧,如:

+--------+-------+--------------------+-------------------+
|     id1|    id2|                body|         created_at|
+--------+-------+--------------------+-------------------+
|1       |      4|....................|2017-10-01 00:00:05|
|2       |      3|....................|2017-10-01 00:00:05|
|3       |      2|....................|2017-10-01 00:00:05|
|4       |      1|....................|2017-10-01 00:00:05|
+--------+-------+--------------------+-------------------+

id1 和 id2 . 例如,获取行,其中 id1=1, id2=4 和 id1=2, id2=3 .

df.filter() ((id1 = 1) and (id2 = 4)) or ((id1 = 2) and (id2 = 3)) . 只是想知道是否有更合适的方法来实现这一点?

1 回复 | 直到 7 年前

MaxU - stand with Ukraine 7 年前

您可以生成助手DF(表):

tmp:

+--------+-------+
|     id1|    id2|
+--------+-------+
|1       |      4|
|2       |      3|
+--------+-------+

然后加入他们:

SELECT a.*
FROM tab a
JOIN tmp b
  ON (a.id1 = b.id1 and a.id2 = b.id2)

哪里 tab 是您的原始DF,注册为表格

推荐文章

hotmeatballsoup · 火花2。x数据帧或数据集?[副本]

6 年前

Atharv Thakur · 在scala spark中更改日期格式后,列的值会更改

6 年前

Chaouki · 如何从Spark数据帧中的数组中获取统计信息?

6 年前

lpgad · JAVAlang.IllegalArgumentException:无法获取数组<字符串>

6 年前

Hemanth Gowda · 编码器的使用速度如何比java序列化快得多?

6 年前

ds_user · 在apache spark中复制记录计数

6 年前

Masterbuilder · 使用窗口函数将前一行与当前行相加

6 年前

Prasanna Saraswathi Krishnan · 检查Pyspark数据帧中是否存在重复项

6 年前

Rahul Kumar · 将一个数据帧中的各个值与另一个数据帧中的值进行映射

6 年前

YOLO · groupby并使用pyspark将多列转换为列表

6 年前