代码之家 › 专栏 › 技术社区 › Jonathan

基于自定义层次结构的熊猫数据帧排序与提取

dataframe pandas python

Jonathan · 技术社区 · 4 年前

import pandas as pd
df = pd.DataFrame({
    'brand': ['Yum_Yum', 'Yum_Yum', 'Indomie', 'Indomie', 'Indomie', 'Boom_Boom', 'Boom_Boom'],
    'style': ['cup', 'box', 'cup', 'pack', 'pack', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5, 2.3, 0]
})

我把等级定义为 #hierarchy --> 1 = pack, 2 = cup, 3= box 其中pack是最高优先级,box是最低优先级。我只想在brand列中保留每个唯一值的一个实例。基于我的层次结构,此实例应该具有最高优先级值。如果有平局,则可以随机拆分。

因此,生成的数据帧如下所示:

brand   style   rating
Yum_Yum cup 4.0
Indomie pack    5.0
Boom_Boom   box 2.3

1 回复 | 直到 4 年前

Quang Hoang 4 年前

尝试将样式映射到优先级、排序和删除重复项:

priority = {'cup':2, 'box':3, 'pack':1}
df['style_rank'] = df['style'].map(priority)
df.sort_values('style_rank').drop_duplicates('brand')

       brand style  rating  style_rank
3    Indomie  pack    15.0           1
5  Boom_Boom  pack     2.3           1
0    Yum_Yum   cup     4.0           2

推荐文章

user1245262 · 筛选Pandas数据帧时出现问题

1 年前

Foroand · 熊猫数据帧中的词频计数耗时过长

1 年前

user14696236 · 如何为每个对应的列创建一行[重复]

2 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

Karim Abou El Naga · 将带字符串的DataFrame绘制到堆叠条形图中

2 年前

The Great · 拆分并存储数据帧,但名称基于特定列中的唯一值

2 年前

nickolakis · 基于R中的列名复制列

2 年前

opposity · 形成一个数据帧,该数据帧包含R中包含类别和子类别的列

2 年前

A. Handler · 有没有办法将数据帧的列与完整列名向量相匹配?

2 年前

JasonX · 运行减法计算

2 年前