![]() |
1
1
如果作为单个文档传递,TfidfVectorizer将只保留包含2个或更多字母数字字符的单词。标点符号将被完全忽略,并始终被视为标记分隔符。所以你的句子变成:
现在从这些令牌生成ngram。 如果你想把它们分开处理,那么你应该自己检测句子,并把它们作为不同的文件传递。 或者,将您自己的分析器和ngram生成器传递给TfidfVectorizer。 有关tfidfvectorizer实际工作方式的更多信息,请参阅我的另一个答案: |