代码之家 › 专栏 › 技术社区 › Ashley O

删除与某些行重复的所有行

pyspark-sql apache-spark-sql pyspark python

Ashley O · 技术社区 · 6 年前

我见过一些这样的问题,但对我的情况来说不是一个令人满意的答案。下面是一个示例数据帧:

+------+-----+----+
|    id|value|type|
+------+-----+----+
|283924|  1.5|   0|
|283924|  1.5|   1|
|982384|  3.0|   0|
|982384|  3.0|   1|
|892383|  2.0|   0|
|892383|  2.5|   1|
+------+-----+----+

我只想通过 "id" 和 "value" 列,然后删除所有实例。

在这种情况下:

第1行和第2行是重复的(我们再次忽略“type”列)
第3行和第4行是重复的,因此只应保留第5行和第6行:

结果将是:

+------+-----+----+
|    id|value|type|
+------+-----+----+
|892383|  2.5|   1|
|892383|  2.0|   0|
+------+-----+----+

我试过了

df.dropDuplicates(subset = ['id', 'value'], keep = False)

但是“keep”特性不在PySpark中(正如在 pandas.DataFrame.drop_duplicates .

我还能怎么做?

2 回复 | 直到 6 年前

Steven 6 年前

你可以使用窗口函数

from pyspark.sql import Window, functions as F
df.withColumn(
  'fg', 
  F.count("id").over(Window.partitionBy("id", "value"))
).where("fg = 1").drop("fg").show()

pault Tanjin 6 年前

你可以 groupBy 这个 id 和 type 去数数。然后使用 join 要筛选出数据帧中计数不是1的行,请执行以下操作:

df.join(
    df.groupBy('id', 'value').count().where('count = 1').drop('count'), on=['id', 'value']
).show()
#+------+-----+----+
#|    id|value|type|
#+------+-----+----+
#|892383|  2.5|   1|
#|892383|  2.0|   0|
#+------+-----+----+

推荐文章

Leonard · Pyspark:JSON到Pyspark数据帧

2 年前

Fran Arenas · Pyspark collect()方法在Pycharm或控制台中执行测试时给出了不同的顺序

2 年前

titutubs · 有没有一种更有效的方法来为Databricks SQL中的bin值编写代码?

2 年前

markwatson · AWS Glue:如何在输出中添加具有源文件名的列?

6 年前

juamd · 顺序(k,<元组>)RDD

6 年前

Gaurav Gupta · 如何加载多行记录的CSV文件?

6 年前

Jared · 如何在本地模式下运行的pyspark中读取S3?

6 年前

ka_boom · 在pyspark中链接多个groupBy

6 年前

ds_user · 在apache spark中复制记录计数

6 年前

ds_user · 结合类型和子类型的Apache Spark组

6 年前