我正试图复制这本书的作者
this paper
已通过公共医疗保险数据集实现。
总之,作者根据医疗提供者ID、分类和HCPC(他们执行的程序代码)将医疗提供者索赔按最频繁到最不频繁进行分组,见下图:
使用下面的代码,我已经能够重新创建左上角的表和左下角的表(我认为没有必要),但我不知道如何将每个提供者的HCPC代码按最高频率分组到最低频率,以便将其输入word2vec以训练嵌入模型。
如果我能为word2vec培训准备好数据,我将非常感激。
library(httr)
library(jsonlite)
library(tidyverse)
# CONNECT TO CMS DATA
res <- GET("https://data.cms.gov/data-api/v1/dataset/5fccd951-9538-48a7-9075-6f02b9867868/data?size=5000")
# CONVERT TO DATA FRAME
data = fromJSON(rawToChar(res$content))
# GROUPING AND COUNTING OCCURANCES OF HCPCS PER PROVIDER ID
providerHCPCS <- data %>%
group_by(Rndrng_NPI,Rndrng_Prvdr_Type,HCPCS_Cd) %>%
count(HCPCS_Cd, name = "Line_Srvc_Cnt") %>%
group_by(Rndrng_NPI) %>%
arrange(desc(Line_Srvc_Cnt), .by_group = TRUE)