代码之家  ›  专栏  ›  技术社区  ›  Sociopath

如何在“熊猫”栏中有效地创建“其他”类别?[复制品]

  •  1
  • Sociopath  · 技术社区  · 6 年前

    我有一个 pandas.DataFrame 如下所示:

    print(df)
    
    level   type
    
    'xyz'     1
    'abc'     2
    'abc'     4
    'abc'     3
    'xyz'     3
    'qwe'     2
    'asd'     5
    'poi'     1
    

    我想替换 level 具有新值且值计数小于2的列 others .

    print(df['level'].value_counts())
    
    abc    3
    xyz    2
    poi    1
    qwe    1
    asd    1
    

    在上面的示例中,计数为1的类别,即 qwe, asd, poi 应替换为 其他

    预期输出:

        level   type
    0   xyz     1
    1   abc     2
    2   abc     4
    3   abc     3
    4   xyz     3
    5   others  2
    6   others  5
    7   others  1
    

    我试过什么

    cats = []
    x = dict(df['level'].value_counts())
    for k,v in x.items():
        if v > 1:
            cats.append(k)
    
    df['level'] = [j if j in cats else 'others' for i,j in df['level'].iteritems()]
    

    上面的代码生成预期的输出,但速度太慢。所以我在寻找 更有效的解决方案。

    1 回复  |  直到 6 年前
        1
  •  1
  •   jezrael    6 年前

    使用创建布尔掩码 isin 和筛选的索引值 v 设定值依据 loc :

    v = df['level'].value_counts() == 1
    df.loc[df['level'].isin(v.index[v]), 'level'] = 'others'
    print (df)
        level  type
    0     xyz     1
    1     abc     2
    2     abc     4
    3     abc     3
    4     xyz     3
    5  others     2
    6  others     5
    7  others     1
    

    细节 :

    print (v.index[v])
    Index(['qwe', 'asd', 'poi'], dtype='object')