我可以使用文档中的示例中的代码,其中fit_transform()函数的输入是一个句子列表,即:
corpus = [
'this is the first document',
'this is the second second document',
'and the third one',
'is this the first document?'
]
X=矢量器.fit_transform(语料库)
并获得预期的数据。但是,当我试图用文件列表或文档中建议的文件对象替换语料库时,它可能是:
"
适合(raw_documents,y=无)
Learn a vocabulary dictionary of all tokens in the raw documents.
Parameters :
raw_documents : iterable
An iterable which yields either str, unicode or file objects.
Returns :
self :
"
..所以我认为我对管道的理解有些欠缺。给定一个我想CountVectorize的文件目录,我该怎么做?
如果我试图提供一个文件对象列表,如[open(file,'r')],我得到的错误消息是文件对象没有更低的函数。