代码之家 › 专栏 › 技术社区 › campo

更改熊猫数据帧中的特定值(在混合类型中)

dataframe pandas python

campo · 技术社区 · 6 年前

我有一个pandas数据框,我希望通过一些增量(例如,.001)来增加大于零的任何值,但只增加列的一个子集。

df=pd.DataFrame({'a': ['abc', 'abc', 'abc', 'abc'], 'b': [2,np.nan, 0, 6], 'c': [1, 0, 2, 0]})

     a    b  c
0  abc  2.0  1
1  abc  NaN  0
2  abc  0.0  2
3  abc  6.0  0

所以我试了一下:

df[df.loc[:,['b', 'c']]>0]+=1

TypeError: Cannot do inplace boolean setting on mixed-types with a non np.nan value

但是,由于第一列具有对象数据类型,因此我无法执行此操作,正如您在错误中看到的那样。预期输出为:

     a    b      c
0  abc  2.001  1.001
1  abc  NaN    0
2  abc  0.0    2.001
3  abc  6.001  0

有没有什么方法可以在不显式地循环遍历每一列的情况下完成这类工作?

我相信我只是缺少一个简单的方法,但似乎找不到一个例子。

3 回复 | 直到 6 年前

Anton vBR 6 年前

你可以试试这个:

import pandas as pd
import numpy as np

df = pd.DataFrame({'a': ['abc', 'abc', 'abc', 'abc'], 
                   'b': [2,np.nan, 0, 6], 
                   'c': [1, 0, 2, 0]})

inc = 0.01
df.loc[:, df.dtypes.ne('object')] += inc
df.replace({inc:0}, inplace=True)        

print(df)

或者按照TAI和NP的建议,其中(这应该更快):

cols = df.columns[df.dtypes.ne('object')]
df[cols] += np.where(df[cols] >0, 0.01, 0)

     a     b     c
0  abc  2.01  1.01
1  abc   NaN  0.00
2  abc  0.00  2.01
3  abc  6.01  0.00

BENY 6 年前

您可以使用 add 具有 select_dtypes

df.add((df.select_dtypes(exclude=object)>0).astype(int)*0.0001).combine_first(df)
Out[18]: 
     a       b       c
0  abc  2.0001  1.0001
1  abc     NaN  0.0000
2  abc  0.0000  2.0001
3  abc  6.0001  0.0000

Tai 6 年前

您也只能添加列 b 和 c 。

df[["b", "c"]] += np.where(df[["b", "c"]] > 0, 0.01, 0)

我们使用 np.where 填写0作为旁路 np.nan 在数据中。

AntonVBR有一种优雅的方式来选择需要的列。

推荐文章

July · 如何定义数字间隔,然后四舍五入

1 年前

Community wiki · 对象名称前的单下划线和双下划线的含义是什么?

1 年前

Brian Johnson · 为什么在Python中列出字典列表会引发TypeError?[已关闭]

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

Ashok Shrestha · 需要追踪特定的颜色线并获取坐标

1 年前

Nicote Ool · 在FastApi和Vue3中获得422

1 年前

NeoExceptCodeBad · 如果我有很多垂直线,我如何找到它们的边缘?

1 年前

Abdulaziz · 如何对集合内的列表进行排序[重复]

1 年前

user2743931 · 带有src目录的Python setup.py

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前