代码之家  ›  专栏  ›  技术社区  ›  TheGoat

将dataframe中的分组数据转换为文档,为word2vec做准备

  •  0
  • TheGoat  · 技术社区  · 2 年前

    我正试图复制这本书的作者 this paper 已通过公共医疗保险数据集实现。

    总之,作者根据医疗提供者ID、分类和HCPC(他们执行的程序代码)将医疗提供者索赔按最频繁到最不频繁进行分组,见下图:

    enter image description here

    使用下面的代码,我已经能够重新创建左上角的表和左下角的表(我认为没有必要),但我不知道如何将每个提供者的HCPC代码按最高频率分组到最低频率,以便将其输入word2vec以训练嵌入模型。

    如果我能为word2vec培训准备好数据,我将非常感激。

    library(httr)
    library(jsonlite)
    library(tidyverse)
    
    # CONNECT TO CMS DATA
    res <- GET("https://data.cms.gov/data-api/v1/dataset/5fccd951-9538-48a7-9075-6f02b9867868/data?size=5000")
    
    # CONVERT TO DATA FRAME
    data = fromJSON(rawToChar(res$content))
    
    # GROUPING AND COUNTING OCCURANCES OF HCPCS PER PROVIDER ID
    providerHCPCS <- data %>% 
      group_by(Rndrng_NPI,Rndrng_Prvdr_Type,HCPCS_Cd) %>% 
      count(HCPCS_Cd, name = "Line_Srvc_Cnt") %>% 
      group_by(Rndrng_NPI) %>% 
      arrange(desc(Line_Srvc_Cnt), .by_group = TRUE)
    
    1 回复  |  直到 2 年前
        1
  •  1
  •   Bloxx    2 年前

    这就是你想要的结果吗?

    table2 <- providerHCPCS %>% group_by(Rndrng_NPI, Rndrng_Prvdr_Type) %>% summarise(HCPCS_sequence = (paste(HCPCS_Cd, collapse=", ")))