代码之家  ›  专栏  ›  技术社区  ›  evilkonrex

从并行txt文件中读取dask数据帧

  •  0
  • evilkonrex  · 技术社区  · 7 年前

    我有两个(或更多)并行文本文件存储在S3中,即第一个文件中的第1行对应于第二个文件中的第1行等。我想将这些文件作为列读取到单个dask数据帧中。最好/最简单/最快的方法是什么?

    另外,我可以将它们读入一个单独的数据帧,但我不能在索引上连接它们,因为数据帧索引值似乎既不唯一也不单调。同时,行的对应关系由它们在每个文件中的位置定义。

    1 回复  |  直到 7 年前
        1
  •  1
  •   MRocklin    7 年前

    不幸的是达斯克。dataframe按字节而不是按行分解大型文件。如果不先通读大文件中的某一行,则很难找到该行。