代码之家 › 专栏 › 技术社区 › edyvedy13

在Pandas Datagrame中消除列中的重复字符串

pandas python

edyvedy13 · 技术社区 · 5 年前

我有这样的数据帧:

item     tags
1        awesome, awesome, great
2        cool, fun
3        boring, boring, average
4        ok, expensive

如何删除重复的标记以获取:

item     tags
1        awesome, great
2        cool, fun
3        boring, average
4        ok, expensive

2 回复 | 直到 5 年前

Seananigan Emma 5 年前

如果我理解正确,请尝试:

df['new_tags'] = df['tags'].apply(lambda x: ', '.join(set(x.split(', '))))

输出:

   item                     tags         new_tags
0     1  awesome, awesome, great   awesome, great
1     2                cool, fun        cool, fun
2     3  boring, boring, average  average, boring
3     4            ok, expensive    expensive, ok

Andy L. 5 年前

使用listcomp, str.split , pd.unique 和 join

df['unique_tags'] = [', '.join(pd.unique(x)) for x in df.tags.str.split(', ')]

Out[145]:
   item                     tags      unique_tags
0     1  awesome, awesome, great   awesome, great
1     2                cool, fun        cool, fun
2     3  boring, boring, average  boring, average
3     4            ok, expensive    ok, expensive

推荐文章

Mainland · Python数据帧规范化值错误:列的长度必须与键相同

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值

1 年前