我需要在一个MongoDB中合并5个集合,并将其作为一个csv文件返回。我可以用 from_records 方法无问题&使用 pd.merge 但问题是我要合并的每个数据帧都有20000+列和100000+行。由于规模的原因,合并过程显然非常缓慢。
from_records
pd.merge
我从来没有处理过这个数量级的数据——我可以用什么方法来加速这个过程?也许熊猫在这一点上不是正确的工具?
我想您需要分发您的处理。
实现这一点的一种方法是将输入拆分为多个块,使用多处理来生成中间输出,然后在最后将它们组合起来。
在熊猫身上我该怎么做?
"Large data" work flows using pandas