代码之家 › 专栏 › 技术社区 › swifty

在多个df上使用pd.concat()时需要减少内存使用

file-io optimization dataframe pandas python

swifty · 技术社区 · 6 年前

我需要读取多个大型的.csv(20k行x 6k列),并将它们存储在一个数据帧中。

这个 thread 有很好的例子,在过去为我工作与较小的文件。

例如:

pd.concat((pd.read_csv(f,index_col='Unnamed: 0') for f in file_list))

我尝试过的其他更直接的方法是:

frame = pd.DataFrame()
list_ = []
for file_ in file_list:
    print(file_)
    df = pd.read_csv(file_,index_col=0)
    list_.append(df)
df = pd.concat(list_)

然而,所有的解决方案都围绕着创建一个所有csv文件的列表作为单独的df,然后使用 pd.concat() 在所有DF的最后。

据我所知,这是一种方法,当连接到20个df时会导致内存错误。

我怎样才能越过这一步,也许在我走的时候加上每个df?

文件列表示例:

/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_26.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_30.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_25.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_19.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_27.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_18.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_28.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_23.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_06_03.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_24.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_29.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_06_04.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_20.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_22.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_06_06.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_06_05.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_06_01.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_06_02.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_31.csv
/realtimedata/orderbooks/bitfinex/btcusd/bitfinex_btcusd_orderbook_2018_05_21.csv

1 回复 | 直到 6 年前

cs95 abhishek58g 6 年前

您的csv仍然是可管理的大小,所以我假设问题是头部不对齐。

我建议在不带任何头的数据帧中读取,这样连接就对齐了。

list_ = []
for file_ in file_list:
    df = pd.read_csv(file_, index_col=0, skiprows=1, header=None)
    list_.append(df)

df = pd.concat(list_)

推荐文章

Hatsune Miku · 比较或if语句是否更快[已关闭]

1 年前

Sky Full Of Stars · 最小化工作流程以及部门和工作站之间的距离

1 年前

Black Swan · 无法解压缩的值太多(应为2)错误

1 年前

Kai · 有什么方法可以轻松优化VSCode中的锈迹?

2 年前

Balfar · 处理NumPy阵列上的循环最有效的方法是什么?

2 年前

santobedi · 使用内部支持的优化器优化scikit learn中用于探地雷达的RBF核的核参数

6 年前

Daniel · C#轻松存储快速访问的大型位矩阵

6 年前

halbe · 优化音频DSP程序的numpy计算

6 年前

Afsara · 是否有任何方法不能优化我们的应用程序?

6 年前

user7353167 · R中预算分配的优化(以前叫Excel Solver)

6 年前