代码之家 › 专栏 › 技术社区 › Dr. Fabian Habersack

如何计算数据集中指示因子水平相对频率的变量?

dplyr function r

Dr. Fabian Habersack · 技术社区 · 5 年前

让这是我的数据:

my.data<-data.frame(name=c("a","b","b","c","c","c"))

我需要的是一个变量,它指示每个名称及其在数据集中的相对频率。基本上,这看起来是这样的:

  name    target
1    a 0.1666667
2    b 0.3333333
3    b 0.3333333
4    c 0.5000000
5    c 0.5000000
6    c 0.5000000

我尝试的是为每个名称计算虚拟变量,然后根据这些虚拟变量计算新变量,这些变量指示数据集中每个名称的相对频率。见下文:

temp_dummies<-data.frame(spatstat::dummify(my.data$name))
my.data<-cbind.data.frame(my.data, temp_dummies)
rm(temp_dummies)

my.data %>%
  dplyr::mutate(a_per=mean(a),
                b_per=mean(b),
                c_per=mean(c)) -> my.data

现在,我需要提取每个名称的相对频率,并将其聚合回来,以得到我的目标变量。我想我应该在下面这样做,但我不知道该变异什么。

my.data %>%
  dplyr::group_by(name) %>%
  dplyr::mutate(...) -> my.data

问题:

如何使用dplyr获取目标变量?我走对了吗?
有没有更容易的方法来达到同样的结果?
是否可以编写一个自动完成所有这些工作的函数?这似乎是一个相当标准的问题,我们应该能够通过简单地应用 function(x) 到 name .

2 回复 | 直到 5 年前

Ronak Shah 5 年前

我们可以使用 add_count 计算每个 name 然后用 n() .

library(dplyr)

my.data %>%
   add_count(name) %>%
   mutate(n = n/n())

#  name      n
#  <fct> <dbl>
#1 a     0.167
#2 b     0.333
#3 b     0.333
#4 c     0.5  
#5 c     0.5  
#6 c     0.5

KoenV 5 年前

用 base -R,您可以使用以下一个衬板:

my.data$target <- (table(my.data$name)/nrow(my.data))[ my.data$name ]

解释在几行代码中:

我们使用 table 函数以获取名称并用df中的行数除以 nrow . 然后在“表”中查找当前行的“名称”。该值保存在新列的相应行中。

t <- table(my.data$name)/nrow(my.data)
my.data$target <- t[ my.data$name ]
my.data

  name    target
1    a 0.1666667
2    b 0.3333333
3    b 0.3333333
4    c 0.5000000
5    c 0.5000000
6    c 0.5000000

推荐文章

eXor420 · 如何在脚本标记中使用导出的函数?

1 年前

Tridip Lodh · 在ES6中,JAVASCRIPT函数在“严格使用”模式下的行为如何?[已关闭]

1 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

D_K · R获取新表

2 年前

ramanujans alkhazarim · 错误“元素类型无效”React Native

2 年前

CodexSC · 如何从另一个函数打印字符串?

2 年前

Matthew Graham · 我应该如何以编程方式仅将某些NA值更改为在R中选择的指定字符串?

2 年前

Anar · Oracle SQL用户定义函数

2 年前

Troskyvs · 映射比较函数导致运行时“bad\u function\u call”

2 年前

Alireza Pirmahdi · 我的代码多次执行打印语句,我只想执行一次

2 年前