代码之家 › 专栏 › 技术社区 › PyRsquared

如何使用另一个pandas系列从pandas数据帧返回索引列表?

pandas-groupby pandas python

PyRsquared · 技术社区 · 6 年前

我正在使用 kaggle house price dataset ,我有以下代码计算四分位范围

#Â bin by area
df['sqft_area_binned']=pd.cut(x=df['sqft_living'], bins=5)
q1 = df.groupby(['sqft_area_binned'])['price'].quantile(0.25)
q3 = df.groupby(['sqft_area_binned'])['price'].quantile(0.75)
iqr = q3 - q1
upper = q3 + 1.5*iqr
lower = q1 - 1.5*iqr
print(upper)
>>>
sqft_area_binned
(276.75, 2940.0]        946000.0
(2940.0, 5590.0]       1900000.0
(5590.0, 8240.0]       4332500.0
(8240.0, 10890.0]     10210500.0
(10890.0, 13540.0]    10410000.0
Name: price, dtype: float64

现在我想返回一个id列表(中的第一列 df 何处 sqft_area_binned 要么是 在下面 相应的 lower 或 在上面 相应的 upper .

例如,如果一栋房子 东风 有 sqft_area_binned=(276.75, 2940.0] 和 price >946000.0,然后返回 id .

这怎么可能呢,也许用过滤或者 .isin() ?

1 回复 | 直到 6 年前

Will 6 年前

query = df.index[(df.sqft_area_binned == desiredBin) & (df.price > upperPriceBound)]

推荐文章

Mainland · Python数据帧规范化值错误:列的长度必须与键相同

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前

Gtoth · 如何分割Pandas DataFrame中包含多个日期的两个时间戳之间的差异

1 年前

Domarius · 使用loc为多行设置多列值

1 年前

Swastik Bhattacharyya · 如何在同一类别类型的多列上运行get_dummies()函数?

1 年前

DrZoidberg09 · 如何在字典列表中创建一个新关键字,该关键字是另一个关键字的总和?

1 年前

armstrong3701 · 如何有效地处理熊猫数据框中缺失的数据并计算条件统计?

1 年前

msts1906 · 大熊猫向乳胶的适当多品种出口

1 年前