代码之家 › 专栏 › 技术社区 › Nicholas

R-统计出现在数据帧中并分组的列表中单词的总出现次数

Nicholas · 技术社区 · 5 年前

我有一个这样的数据框:

ID   Word
1    Tree
1    House
1    Tree
2    Snail
2    Tree
3    Car

我有一个要检查的关键字列表:

(House, Tree, Bird)

我想知道每个ID有多少次,我的关键字列表中的任何单词都会出现。

ID   Count
1     3
2     1
3     0

我不知道该怎么处理。我知道如何计算一个单词在每个ID中出现的次数,但不知道另一个列表中的单词出现的次数。

1 回复 | 直到 5 年前

akrun 5 年前

我们可以创建一个逻辑索引并获取 sum 按“ID”分组。不确定“v1”是否 vector 或 list 列表 ,然后 unlist(v1) 使用相同的代码)

library(dplyr)
df1 %>% 
   group_by(ID) %>% 
   summarise(Count = sum(Word %in% v1))
# A tibble: 3 x 2
#     ID Count
#  <int> <int>
#1     1     3
#2     2     1
#3     3     0

或者 filter count

df1 %>% 
   filter(Word %in% v1) %>%
   count(ID, .drop = FALSE)

数据

v1 <- c("House", "Tree", "Bird")
df1 <- structure(list(ID = c(1L, 1L, 1L, 2L, 2L, 3L), Word = c("Tree", 
"House", "Tree", "Snail", "Tree", "Car")), class = "data.frame", 
row.names = c(NA, 
-6L))

推荐文章

Marc B. · 使用ggplot2创建条形图时“缺少值”

1 年前

deschen · tidyverse与外部向量发生突变,该外部向量的元素是数据帧中的列值

1 年前

Laura · 在Shiny中使用可排序的包拖放名称,这些名称将成为图表

1 年前

Mallikarjun M · 如何使用随机森林进行时间序列预测?

1 年前

ly li · 模型摘要:当表格形状改变时,拟合优度消失

1 年前

C.Robin · 将marginaffects::predictions()的结果连接回main df?

1 年前

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

RoyBatty · 统计每个字符在整个数据集中出现的次数

2 年前

stats_noob · R: 记录某个“行为”发生的循环的索引?

2 年前