代码之家  ›  专栏  ›  技术社区  ›  Adham Enaya

使用CountVectorizer为LDA主题模型准备数据集

  •  0
  • Adham Enaya  · 技术社区  · 6 年前

    我想使用 CountVectorizer 从…起 Scikit 创建要由使用的矩阵 LDA 模型但我的数据集是一系列编码术语,例如以下形式:

    (1-2252, 5-5588, 10-5478, 2-9632 ....)
    

    我怎样才能说出 计数矢量器 考虑每对数据,即。 1-2252 作为一个词

    1 回复  |  直到 6 年前
        1
  •  0
  •   Adham Enaya    6 年前

    幸运的是,我找到了 helpful 博客给了我答案。

    因为我使用了以下方法来标记文本:

    import re
    REGEX = re.compile(r",\s*")
    def tokenize(text):
        return [tok.strip().lower() for tok in REGEX.split(text)]
    

    并将标记器传递给 CountVectorizer 具体如下:

    tf = CountVectorizer(tokenizer=tokenize)