代码之家 › 专栏 › 技术社区 › Ramón J Romero y Vigil

pandas数据帧中基于多索引的组头提取

dataframe pandas python

Ramón J Romero y Vigil · 技术社区 · 5 年前

我发现了 this question 它演示了如何对 DataFrame 基于多索引的第一级。所以一个初始数据帧

l = [[1,'A',99],[1,'B',102],[1,'C',105],[1,'D',97],[2,'A',19],[2,'B',14],[2,'C',10],[2,'D',17]]
df = pd.DataFrame(l,columns = ['idx1','idx2','col1'])
df.set_index(['idx1','idx2'],inplace=True)

# assume data has been received like this...
print df

           col1
idx1 idx2      
1    A       99
     B      102
     C      105
     D       97
2    A       19
     B       14
     C       10
     D       17

可以在每个 level=1 要生成的组:

           col1
idx1 idx2      
1    C      105
     B      102
     A       99
     D       97

2    A       19
     D       17
     B       14
     C       10

我的问题是: 如何提取第一个 n 每个组的元素基于第一级?

例如,如果 n=2 结果是:

           col1
idx1 idx2      
1    C      105
     B      102

2    A       19
     D       17

提前感谢您的考虑和回复。

1 回复 | 直到 5 年前

Quang Hoang 5 年前

你只需要 head 在 groupby 已排序数据帧的:

df.sort_values('col1', ascending=False).groupby('idx1').head(2)

输出:

           col1
idx1 idx2      
1    C      105
     B      102
2    A       19
     D       17

推荐文章

Mainland · Python数据帧规范化值错误:列的长度必须与键相同

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前

Gtoth · 如何分割Pandas DataFrame中包含多个日期的两个时间戳之间的差异

1 年前

Domarius · 使用loc为多行设置多列值

1 年前

Swastik Bhattacharyya · 如何在同一类别类型的多列上运行get_dummies()函数?

1 年前

DrZoidberg09 · 如何在字典列表中创建一个新关键字,该关键字是另一个关键字的总和?

1 年前

armstrong3701 · 如何有效地处理熊猫数据框中缺失的数据并计算条件统计?

1 年前

msts1906 · 大熊猫向乳胶的适当多品种出口

1 年前