代码之家  ›  专栏  ›  技术社区  ›  deepAgrawal

以H2O从CSV导入选定列

h2o r
  •  2
  • deepAgrawal  · 技术社区  · 6 年前

    我有一个超过20GB的CSV文件。我可以使用read lines读取前几行,然后找出要导入的列。是否可以使用 h2o.importFile() 或者用其他方式加入水,这样我就不会装不必要的柱子了?

    1 回复  |  直到 6 年前
        1
  •  2
  •   Erin LeDell    6 年前

    这个 h2o.importFile() 函数不支持仅加载列的子集。以下是一些解决方法:

    • 在整个数据集中加载并使用 x 任何建模函数中忽略某些列的参数。 fit <- h2o.gbm(x = good_cols, y = y, training_frame = train)
    • 加载整个数据集,然后创建一个新的仅包含所需列的H2OFrame。 newdf <- df[, good_cols]
    • 在磁盘上创建只包含所需列的数据副本。使用 cut 工具(工具) example here ) cut -d, -f2-4,6-10 train.csv > newtrain.csv