代码之家 › 专栏 › 技术社区 › Jivan

检查一个单元格的值是否在另一个单元格的列表/集合中

vectorization pandas

Jivan · 技术社区 · 6 年前

如果我有以下数据帧:

      country       countries
1      France       {France, Sweden, England}
2     Germany       {France, Sweden, England}
3     Germany       {Portugal, Greece, Germany}
4      Sweden       {Spain, England}
5       Spain       {England, Greece}
6       Spain       {Portugal, Spain, Italy}

有没有一种快速(矢量化)的方法来检查 country 在一组 countries ?

      country       countries                         is_in
1      France       {France, Sweden, England}         True
2     Germany       {France, Sweden, England}         False
3     Germany       {Portugal, Greece, Germany}       True
4      Sweden       {Spain, England}                  False
5       Spain       {England, Greece}                 False
6       Spain       {Portugal, Spain, Italy}          True

df.apply() 是非常容易,但也非常缓慢。因此,我正在寻找一个使用Numpy或本地熊猫矢量化方法的解决方案。

我想到了努比的 np.isin() 或 np.in1d() 但它们不适合,因为它们假定要比较的是一组唯一的常量值,而不是每行一组值。

3 回复 | 直到 6 年前

rafaelc 6 年前

可以使用集合交集

df.country.transform(lambda s: {s}) & df.countries.values

检查计时

df = pd.concat([df]*1000)

%timeit df.country.transform(lambda s: {s}) & df.countries.values
4.53 ms Â± 512 Âµs per loop (mean Â± std. dev. of 7 runs, 100 loops each)

%timeit df.apply(lambda x: x['country'] in x['countries'], 1)
156 ms Â± 6.25 ms per loop (mean Â± std. dev. of 7 runs, 10 loops each)

%timeit [x in y for x , y in zip(df.country,df.countries)]
598 Âµs Â± 97.8 Âµs per loop (mean Â± std. dev. of 7 runs, 1000 loops each)

BENY 6 年前

IIUC公司

[x in y for x , y in zip(df.country,df.countries)]

Ananay Mital 6 年前

df["is_in"] = [row["country"] in row["countries"] for idx, row in df.iterrows()]

我不知道这是否能满足你的时间限制,但希望能有所帮助。

推荐文章

Mainland · Python数据帧规范化值错误:列的长度必须与键相同

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前

Gtoth · 如何分割Pandas DataFrame中包含多个日期的两个时间戳之间的差异

1 年前

Domarius · 使用loc为多行设置多列值

1 年前

Swastik Bhattacharyya · 如何在同一类别类型的多列上运行get_dummies()函数?

1 年前

DrZoidberg09 · 如何在字典列表中创建一个新关键字,该关键字是另一个关键字的总和?

1 年前

armstrong3701 · 如何有效地处理熊猫数据框中缺失的数据并计算条件统计?

1 年前

msts1906 · 大熊猫向乳胶的适当多品种出口

1 年前