代码之家 › 专栏 › 技术社区 › rez

dplyr summary和group_by中出现意外结果

dplyr r

rez · 技术社区 · 1 年前

我想知道为什么只更改汇总统计的顺序( mean 和 sd )导致不同的输出。中也提到的一点 summarize 的文档 dplyr R包。

mtcars %>%
  group_by(cyl) %>%
  summarise(disp = mean(disp), sd = sd(disp))

sd 返回为NA。

mtcars %>%
  group_by(cyl) %>%
  summarise(sd = sd(disp), disp = mean(disp))

二者都 sd 和 意思是 正确返回。

1 回复 | 直到 1 年前

Ronak Shah 1 年前

在第一个版本中,的值 disp 已更改为 mean(disp) 正是这个价值观 sd on。由于我们是按组进行的,并且组中只有一个数字作为平均值,因此它会返回 NA 因为这是标准偏差。

让我分解第一个例子-

library(dplyr)

mtcars %>%
    group_by(cyl) %>%
    summarise(disp = mean(disp), sd = sd(disp))

#    cyl  disp    sd
#  <dbl> <dbl> <dbl>
#1     4  105.    NA
#2     6  183.    NA
#3     8  353.    NA

现在 mean 属于 disp 对于 cyl = 4 为105.1364。此值存储在 disp 。现在你正在服用 sd 具有相同的值,即

sd(105.1364)
#[1] NA

此get也扩展到所有其他组。

快速解决方法是更改存储平均值的变量名。

mtcars %>%
  group_by(cyl) %>%
  summarise(disp_mean = mean(disp), sd = sd(disp))

#    cyl disp_mean    sd
#  <dbl>     <dbl> <dbl>
#1     4      105.  26.9
#2     6      183.  41.6
#3     8      353.  67.8

第二种情况,由于 sd 值保存在变量中 sd 和 disp 值保持不变。

推荐文章

Marc B. · 使用ggplot2创建条形图时“缺少值”

1 年前

deschen · tidyverse与外部向量发生突变,该外部向量的元素是数据帧中的列值

1 年前

Laura · 在Shiny中使用可排序的包拖放名称,这些名称将成为图表

1 年前

Mallikarjun M · 如何使用随机森林进行时间序列预测?

1 年前

ly li · 模型摘要:当表格形状改变时,拟合优度消失

1 年前

C.Robin · 将marginaffects::predictions()的结果连接回main df?

1 年前

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

RoyBatty · 统计每个字符在整个数据集中出现的次数

2 年前

stats_noob · R: 记录某个“行为”发生的循环的索引?

2 年前