代码之家 › 专栏 › 技术社区 › sgerbhctim

如何在满足一定条件后捕获一些非结构化数据?

pandas python

sgerbhctim · 技术社区 · 5 年前

我正在将测量数据从一个excel文件导出到另一个excel文件,处理一些结构不良的数据,因此需要找到解决给定问题的方法:

假设我有一个 df1 看起来是这样的:

Reference Code     Original Text         Translation
RUSSIA_PRES        How do you like       ÐÐ°Ðº Ð²Ð°Ð¼ Ð½ÑÐ°Ð²Ð¸ÑÑÑ Ð¿ÑÐµÐ·Ð¸Ð´ÐµÐ½Ñ Ð¢ÑÐ°Ð¼Ð¿?
                   President Trump?
1                  Love him              ÐÑÐ±Ð»Ñ ÐµÐ³Ð¾     
2                  Hate him              ÐÐµÐ½Ð°Ð²Ð¸Ð¶Ñ ÐµÐ³Ð¾

RUSSIA_ECON        Is the economy good?  Ð¥Ð¾ÑÐ¾ÑÐ° Ð»Ð¸ ÑÐºÐ¾Ð½Ð¾Ð¼Ð¸ÐºÐ°?
1                  Yes                   Ð´Ð°
2                  No                    Ð½ÐµÑ

我需要做的是使用另一个数据框架和交叉比较,如果参考代码是相关的-我已经解决了这个部分。我的问题是天平(即1,2)。比如说 Russia_Pres 在另一个数据框中,我正试图与之合并,但是 Russia_Econ 不是。我能拉 小精灵 , Original Text 和 Translation ,但是我很难搞清楚--“好的,俄罗斯压力在那里,我如何得到与俄罗斯压力相关的量表,而不取 俄罗斯经济共同体 ?基本上,我的问题是:如果我发现 俄罗斯人 在提取那一行数据的时候,我如何在命中另一个可能对我们不起作用的引用代码之前提取其余的数据?