代码之家 › 专栏 › 技术社区 › TheGoat

将dataframe中的分组数据转换为文档,为word2vec做准备

word-embedding word2vec tidyverse r

TheGoat · 技术社区 · 2 年前

我正试图复制这本书的作者 this paper 已通过公共医疗保险数据集实现。

总之,作者根据医疗提供者ID、分类和HCPC(他们执行的程序代码)将医疗提供者索赔按最频繁到最不频繁进行分组,见下图:

使用下面的代码,我已经能够重新创建左上角的表和左下角的表(我认为没有必要),但我不知道如何将每个提供者的HCPC代码按最高频率分组到最低频率,以便将其输入word2vec以训练嵌入模型。

如果我能为word2vec培训准备好数据,我将非常感激。

library(httr)
library(jsonlite)
library(tidyverse)

# CONNECT TO CMS DATA
res <- GET("https://data.cms.gov/data-api/v1/dataset/5fccd951-9538-48a7-9075-6f02b9867868/data?size=5000")

# CONVERT TO DATA FRAME
data = fromJSON(rawToChar(res$content))

# GROUPING AND COUNTING OCCURANCES OF HCPCS PER PROVIDER ID
providerHCPCS <- data %>% 
  group_by(Rndrng_NPI,Rndrng_Prvdr_Type,HCPCS_Cd) %>% 
  count(HCPCS_Cd, name = "Line_Srvc_Cnt") %>% 
  group_by(Rndrng_NPI) %>% 
  arrange(desc(Line_Srvc_Cnt), .by_group = TRUE)

1 回复 | 直到 2 年前

Bloxx 2 年前

这就是你想要的结果吗?

table2 <- providerHCPCS %>% group_by(Rndrng_NPI, Rndrng_Prvdr_Type) %>% summarise(HCPCS_sequence = (paste(HCPCS_Cd, collapse=", ")))

推荐文章

user18628526 · 什么时候使用Word2vec和一大堆单词?

2 年前

Rahul Jain · CNN on word vectors抛出输入维度错误

6 年前

abdalmohaymen aliesmaeel · gensim模型返回ID与输入doc2vec不相关

6 年前

surya · UnpicklingError:加载键“3”无效

6 年前

j-s · 如何在python中使用gensim和word2vec查找语义相似度

6 年前

Marsellus Wallace · 如何从预先训练的单词嵌入数据集创建Keras嵌入层?

6 年前

richards · 具有初始值的Gensim单词嵌入训练

7 年前

vish · Spark MLib Word2Vec错误:词汇大小应大于0

7 年前

pankaj · 如何从pandas中的词典中为特定单词列表创建前5个紧密单词的数据框架

7 年前

whs2k · Pyspark如何从word2vec word嵌入计算Doc2Vec?

7 年前