代码之家  ›  专栏  ›  技术社区  ›  Bo Qiang

使用dask对非常大的数据进行排序?

  •  4
  • Bo Qiang  · 技术社区  · 7 年前

    我需要对数据表进行排序,该数据表的大小远远超过我使用的机器的物理内存大小。Pandas无法处理它,因为它需要将整个数据读入内存。达斯克能处理吗?

    谢谢

    1 回复  |  直到 5 年前
        1
  •  3
  •   MRocklin    7 年前

    是的,打电话 set_index 在要排序的列上。在一台机器上,它会智能地使用硬盘来释放多余的空间。