我正在尝试使用NLTK为Dothraki语言编写一个基本的词性标记。与棕色语料库相似,我有自己的语料库。包含单词及其相关词类的txt文件。例如
Anha/PRP vidrik/VBP khalasares/NN anni/NN jim/NN
我想做的是将语料库加载到NLTK中,并能够看到单词旁边的词类,类似于Brown语料库的做法。这就是我正在做的:
from nltk.corpus.reader import TaggedCorpusReader
corpus_root = '...'
dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".*", ".txt")
print (dothraki_corpus_tagged.tagged_sents('dt01.txt'))
但我的结果是:
[[('Anha/PRP', None), ('vidrik/VBP', None), ('khalasares/NN', None), ('anni/NN', None), ('jim/NN', None)]]
而不是
[[('Anha', 'PRP'), ('vidrik', 'VBP') ...]]