代码之家 › 专栏 › 技术社区 › Jan

Pandas:删除具有相同“舍入”值的重复行,而不创建新列

pandas python-2.7 python

Jan · 技术社区 · 6 年前

B 和 C

import pandas as pd
df = pd.DataFrame({"A":["f1", "f2", "f3", "f4"], "B":[1.2579,1.2586,1.7223,1], "C":[8.2579,8.2586,12.7223,14.0]})

   A       B        C
0  f1  1.2579   8.2579
1  f2  1.2586   8.2586
2  f3  1.7223  12.7223
3  f4  1.0000  14.0000

这里,排 0 1 四舍五入后具有相同的值。而不是创建列 B_round C_round 像这样删除副本

df['B_round'] = df['B'].values.round(2)
df['C_round'] = df['C'].values.round(2)
df = df.drop_duplicates(subset=['B_round', 'C_round'], keep='first')

我必须再次删除列

df = df.drop(['B_round', 'C_round'], axis=1)
   A       B        C
0  f1  1.2579   8.2579
2  f3  1.7223  12.7223
3  f4  1.0000  14.0000

因为我的真实数据很大。有没有办法在不创建新列集的情况下删除它们?

1 回复 | 直到 6 年前

jezrael 6 年前

使用 DataFrame.duplicated 使用反转布尔掩码 ~ boolean indexing :

df = df[~df[['B', 'C']].round(2).duplicated()]

print (df)
    A       B        C
0  f1  1.2579   8.2579
2  f3  1.7223  12.7223
3  f4  1.0000  14.0000

另一个解决方案-乘以 100 并将值转换为 integer 学生:

df = df[~df[['B', 'C']].mul(100).astype(int).duplicated()]

推荐文章

July · 如何定义数字间隔,然后四舍五入

1 年前

Community wiki · 对象名称前的单下划线和双下划线的含义是什么?

1 年前

Brian Johnson · 为什么在Python中列出字典列表会引发TypeError?[已关闭]

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

Ashok Shrestha · 需要追踪特定的颜色线并获取坐标

1 年前

Nicote Ool · 在FastApi和Vue3中获得422

1 年前

NeoExceptCodeBad · 如果我有很多垂直线,我如何找到它们的边缘?

1 年前

Abdulaziz · 如何对集合内的列表进行排序[重复]

1 年前

user2743931 · 带有src目录的Python setup.py

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前