代码之家 › 专栏 › 技术社区 › user2727704

熊猫-在CSV文件的不同列中找到相同值的更快方法?

csv pandas python

user2727704 · 技术社区 · 6 年前

我需要找到CSV输入文件中引用了循环的行,如:

start,end,weather
california,arizona,hot
colorado,kansas,cold
arizona,california,hot

上面应该检测到第一行和第三行是循环引用。我正在将csv加载到数据库中,并运行一个自连接查询以确定数据具有循环引用。但是想看看是否有任何方法可以使用Python Pandas来处理这个问题。

1 回复 | 直到 6 年前

Charles R 6 年前

可以筛选df.end Serie中包含df.start Serie值的行。然后应用第二个过滤器获取df.end Serie的值包含在df.start Serie中的行:

df = df.loc[df.start.isin(df.end),:]
df = df.loc[df.end.isin(df.start),:]
df["way"] = df.apply(lambda x: sorted([x["start"], x["end"]]), axis=1)
print(df)

输出将给出第0行和第2行。

推荐文章

igbins09 · 在shell bash脚本中使用jq将单行JSON转换为csv

2 年前

Ujjawal Pandey · 如何为矢量化数据帧创建行CSV?

2 年前

greens trial · 在Python中编辑CSV文件名以附加到当前文件名

2 年前

n328 · 如何将指数格式的值从csv读取到numpy数组中?

2 年前

Bilal Sedef · 如何快速组合特定列上的多个csv文件?

2 年前

christhebliss · 如何在一个csv列中写入分号分隔的值?

2 年前

Max J. · 用整数作为键将dict写入csv

2 年前

Sarai · Python中的CSV文件处理和计算值

2 年前

BabaZuri · 应用筛选器时将csv中的行添加到数组

2 年前

user18796731 · 在Python中以CSV格式保存数组元素

2 年前