我想使用 CountVectorizer 从…起 Scikit 创建要由使用的矩阵 LDA 模型但我的数据集是一系列编码术语,例如以下形式:
CountVectorizer
Scikit
LDA
(1-2252, 5-5588, 10-5478, 2-9632 ....)
我怎样才能说出 计数矢量器 考虑每对数据,即。 1-2252 作为一个词
计数矢量器
1-2252
幸运的是,我找到了 helpful 博客给了我答案。
因为我使用了以下方法来标记文本:
import re REGEX = re.compile(r",\s*") def tokenize(text): return [tok.strip().lower() for tok in REGEX.split(text)]
并将标记器传递给 CountVectorizer 具体如下:
tf = CountVectorizer(tokenizer=tokenize)