代码之家 › 专栏 › 技术社区 › Fino

在使用dplyr时,应该在哪个步骤将数据发送到data.table()以获得最佳性能?

data.table dplyr r

Fino · 技术社区 · 6 年前

大多数时候,我正在处理的代码的开头看起来像这样:

data = read.csv("path") %>% 
  filter() %>% 
  select() %>% 
  mutate() %>% 

  data.table()

是否只在最后一步将数据发送到data.table()而导致性能下降?

1 回复 | 直到 6 年前

hank_044 6 年前

正如评论者所指出的,您可以在data.table或tidyverse中完成所有这些工作。考虑到您在dplyr中看起来更舒服,您是否希望在代码中使用data.table?

一个很好的原因是你有一个性能问题。如果dplyr运行缓慢,那么可以将所有内容移动到data.table和fread。如果真的没有原因,也许只需将数据转换为最后一行中的tibble即可实现一致性。

如果您希望在性能分析方面得到更可靠的答案,那么您可能应该发布更具体和可重复的内容。

推荐文章

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

buzz · 在dplyr包中,可以根据不同列中的值对列进行变异吗

2 年前

Artur Vidaurre de Almeida · 用R列中的下一个值替换NA值

2 年前

Rich · 如何通过比较R中的两列来计算不同的值?

2 年前

J.Sabree · case\u when在使用group by时忽略一些参数

2 年前

cigarettes_after_text · 有没有一种方法可以更高效地将其写入单个Dplyr语句?

2 年前

Melderon · 将dplyr转换命令转换为基R函数

2 年前

Rafael Peixoto · 熊猫有什么类似于dplyr的“列表列”的吗

2 年前

awoj · 使用pivot\u wider()时修改列名顺序

2 年前

John Thomas · 使用tidyverse/dplyr[duplicate]创建虚拟变量作为计数

2 年前