代码之家 › 专栏 › 技术社区 › JPFrancoia

Pandas,筛选数据帧、在筛选的数据帧上计算和更新主数据帧时的性能问题

dataframe pandas python

JPFrancoia · 技术社区 · 6 年前

unique_id (以及每个产品的几个条目)。我需要过滤每个产品的数据框架,执行一些计算,并更新基本数据框架。现在我正在做这样的事情:

for unique_id in self.df.unique_id.unique():

    # prod_df = self.df[(self.df["unique_id"] == unique_id)]
    prod_df = self.df.query(f"unique_id == {unique_id}")

    some_function(prod_df)

def some_function(prod_df):

    ... some code ...

    values = some_values

    for idx, val in zip(prod_df.index, some_values):
        self.df.loc[idx, "foo_column"] = val

然而,这段代码非常慢(我在这里讲了几个小时…)。我做了一些快速分析,似乎我的脚本的大部分运行时间都花在熊猫身上 indexing.py 脚本。没什么好惊讶的。

编辑:

下面是一个典型的函数,我可以用它代替 some_function :

def comp_gradient_for_column(
    self, prod_df: pd.DataFrame
) -> None:

    """
    Compute the gradient for a given column and insert it in the dataframe

    Arguments:
        prod_df (pd.DataFrame): sub-dataframe to work on

    Returns:
        None:
    """

    values = prod_df[column_name].values
    gradients = np.gradient(values)

    for idx, val in zip(prod_df.index, gradients):
        self.df.loc[idx, "foo_column"] = val

0 回复 | 直到 6 年前

推荐文章

user1245262 · 筛选Pandas数据帧时出现问题

1 年前

Foroand · 熊猫数据帧中的词频计数耗时过长

1 年前

user14696236 · 如何为每个对应的列创建一行[重复]

2 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

Karim Abou El Naga · 将带字符串的DataFrame绘制到堆叠条形图中

2 年前

The Great · 拆分并存储数据帧,但名称基于特定列中的唯一值

2 年前

nickolakis · 基于R中的列名复制列

2 年前

opposity · 形成一个数据帧,该数据帧包含R中包含类别和子类别的列

2 年前

A. Handler · 有没有办法将数据帧的列与完整列名向量相匹配?

2 年前

JasonX · 运行减法计算

2 年前