代码之家  ›  专栏  ›  技术社区  ›  e1v1s

如何处理大熊猫中的超大数据集

  •  0
  • e1v1s  · 技术社区  · 6 年前

    我需要在一个MongoDB中合并5个集合,并将其作为一个csv文件返回。我可以用 from_records 方法无问题&使用 pd.merge 但问题是我要合并的每个数据帧都有20000+列和100000+行。由于规模的原因,合并过程显然非常缓慢。

    我从来没有处理过这个数量级的数据——我可以用什么方法来加速这个过程?也许熊猫在这一点上不是正确的工具?

    1 回复  |  直到 6 年前
        1
  •  1
  •   madjaoue    6 年前

    我想您需要分发您的处理。

    实现这一点的一种方法是将输入拆分为多个块,使用多处理来生成中间输出,然后在最后将它们组合起来。

    在熊猫身上我该怎么做?

    "Large data" work flows using pandas